WO2024024468A1 - 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム - Google Patents

情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム Download PDF

Info

Publication number
WO2024024468A1
WO2024024468A1 PCT/JP2023/025402 JP2023025402W WO2024024468A1 WO 2024024468 A1 WO2024024468 A1 WO 2024024468A1 JP 2023025402 W JP2023025402 W JP 2023025402W WO 2024024468 A1 WO2024024468 A1 WO 2024024468A1
Authority
WO
WIPO (PCT)
Prior art keywords
masking
information
frequency
interest
sound
Prior art date
Application number
PCT/JP2023/025402
Other languages
English (en)
French (fr)
Inventor
明文 河野
知則 川上
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024024468A1 publication Critical patent/WO2024024468A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present technology relates to an information processing device and method, an encoding device, an audio playback device, and a program. Regarding devices and programs.
  • 3D audio is different from traditional 2ch audio and can provide a new music experience where sound can be heard from all directions in 360 degrees.
  • object audio which is one of the 3D audio formats
  • various sounds can be expressed by placing a sound source called an audio object (hereinafter also simply referred to as an object) at an arbitrary position in space.
  • the mixing engineer receives audio data for each instrument and sound effect, separated by object, such as a kick object, bass object, vocal object, etc.
  • the mixing engineer listens to the overall content and the sound of each object.
  • the mixing engineer needs to know the type of content, such as genre and melody, and the type of each object, such as instrument type, as well as the rise and duration, etc. Analyze what sound characteristics each object has.
  • the mixing engineer determines the position and gain when arranging each object in three-dimensional space based on the analysis results. Therefore, even for objects of the same musical instrument type, the appropriate three-dimensional position and gain will vary depending on the sound characteristics of the object, the genre of the music, etc.
  • the mixing engineer listens to the sounds played with objects actually placed in three-dimensional space, and checks for auditory masking between objects, that is, important sounds are masked by other sounds, making them difficult to hear. Check if there are any. If important sounds are being masked by other sounds, mixing engineers repeatedly adjust the position and gain of objects to achieve optimal audibility.
  • auditory masking here refers to frequency masking (simultaneous masking) in which a sound of a certain frequency masks a sound of another frequency that is played at the same time.
  • Mixing work requires a high level of experience, knowledge, and time in listening to such sounds and determining the three-dimensional position and gain of objects based on listening to the sounds.
  • This technology was developed in view of this situation, and allows content to be created in a shorter time.
  • the information processing device may detect the object of interest based on the frequency spectrum and object position information of the object of interest, and the frequency spectrum and object position information of another object different from the object of interest.
  • a masking information calculation unit that calculates the auditory masking amount of each frequency between the target object and the other object as an inter-object masking frequency characteristic; and a display control unit that displays the frequency spectrum of the object of interest and the inter-object masking frequency characteristic. Equipped with.
  • the information processing method or program according to the first aspect of the present technology is based on the frequency spectrum and object position information of an object of interest and the frequency spectrum and object position information of another object different from the object of interest.
  • the method includes the step of calculating an auditory masking amount of each frequency between the object of interest and the other object as an inter-object masking frequency characteristic, and displaying the frequency spectrum of the object of interest and the inter-object masking frequency characteristic.
  • the amount of auditory masking of each frequency with respect to the object is calculated as an inter-object masking frequency characteristic, and the frequency spectrum of the object of interest and the inter-object masking frequency characteristic are displayed.
  • the encoding device includes a time-frequency conversion unit that performs time-frequency conversion on an audio signal of an object and generates frequency spectrum information, and settings regarding the frequency spectrum information and a masking threshold for the object.
  • a psychoacoustic parameter calculation unit that calculates a psychoacoustic parameter based on the psychoacoustic parameter information; and a bit allocation unit that performs bit allocation processing based on the psychoacoustic parameter and the frequency spectrum information to generate quantized frequency spectrum information.
  • time-frequency transformation is performed on the audio signal of the object to generate frequency spectral information
  • the auditory psychoanalysis is performed based on the frequency spectral information and setting information regarding a masking threshold for the object.
  • Parameters are calculated and bit allocation processing is performed based on the psychoacoustic parameters and the frequency spectrum information to generate quantized frequency spectrum information.
  • a sound reproduction device includes a recording unit that records placement setting information indicating a direction of arrival of an external sound and a direction in which a target sound can be easily heard with respect to the direction of arrival of the external sound; a sound collection unit that collects sound, and estimates the arrival direction of the external sound based on the sound collection signal obtained by the sound collection, and estimates the arrival direction of the external sound based on the sound collection signal. a control unit that generates a reproduction signal in which a sound image of the target sound is localized in a direction in which the target sound indicated by the placement setting information corresponding to the estimation result can be easily heard; and a reproduction unit that reproduces audio based on the reproduction signal. Equipped with.
  • arrangement setting information indicating the arrival direction of external sound and the direction in which the target sound can be easily heard with respect to the arrival direction of the external sound is recorded, and the surrounding sound is collected.
  • the direction of arrival of the external sound is estimated based on the collected sound signal obtained by the collected sound, and the arrangement corresponds to the estimation result of the direction of arrival of the external sound based on the collected sound signal.
  • a reproduction signal is generated in which a sound image of the target sound is localized in a direction in which the target sound is easier to hear, which is indicated by the setting information, and audio is reproduced based on the reproduction signal.
  • the information processing device displays a position adjustment screen showing the arrangement position of an external sound in a space and the arrangement position of a target sound, and also adjusts the position adjustment screen in accordance with a user's operation.
  • the arrangement position of the target sound is moved, the external sound and the target sound are reproduced at a sound image position corresponding to the arrangement position, and the external sound is adjusted based on the arrangement position of the external sound and the target sound.
  • the apparatus includes a control unit that generates placement setting information indicating an arrival direction and a direction in which the target sound can be easily heard, which is set by the user with respect to the arrival direction of the external sound.
  • a position adjustment screen showing the arrangement position of the external sound in the space and the arrangement position of the target sound is displayed, and the The arrangement position of the sound moves, the external sound and the target sound are reproduced at the sound image position according to the arrangement position, and the direction of arrival of the external sound is determined based on the arrangement position of the external sound and the arrangement position of the target sound. and a direction in which the target sound can be easily heard, which is set by the user with respect to the arrival direction of the external sound, is generated.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing device.
  • FIG. 3 is a diagram showing an example of a three-dimensional equal loudness characteristic table.
  • FIG. 3 is a diagram showing an example of a frequency characteristic display screen.
  • 3 is a flowchart illustrating GUI display processing.
  • FIG. 3 is a diagram illustrating another configuration example of the information processing device. It is a figure explaining a reflective object.
  • 1 is a diagram illustrating a configuration example of an information processing device.
  • 3 is a flowchart illustrating GUI display processing.
  • FIG. 3 is a diagram showing an example of an alert display.
  • 1 is a diagram illustrating a configuration example of an information processing device.
  • 3 is a flowchart illustrating GUI display processing.
  • FIG. 6 is a diagram illustrating an example of a display of candidates for object movement destinations.
  • 3 is a flowchart illustrating GUI display processing. It is a figure showing an example of composition of an encoder. It is a flowchart explaining encoding processing.
  • FIG. 6 is a diagram illustrating an example of adjusting the arrangement position of a target sound.
  • 1 is a diagram showing an example of the configuration of an audio playback device. It is a diagram showing an example of the configuration of a computer.
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of an information processing device to which the present technology is applied.
  • the information processing device 11 shown in FIG. 1 is composed of, for example, a personal computer.
  • a user who is a mixing engineer can create 3D audio content using mixing software, that is, a content creation tool, that operates on the information processing device 11.
  • the user uses mixing software to generate object position information that indicates the position of the object in three-dimensional space, and gain information that indicates the gain of the object's sound. Mixing is performed by adding .
  • the information processing device 11 has an input section 21, a control section 22, and a display section 23.
  • the display unit 23 may be a separate device from the information processing device 11.
  • the input unit 21 is comprised of, for example, a mouse or a keyboard, and supplies signals according to user operations to the control unit 22.
  • the control unit 22 controls the operation of the information processing device 11 as a whole.
  • the control unit 22 includes a time-frequency conversion unit 31, a gain correction unit 32, a 3D auditory characteristic table holding unit 33, a frequency spectrum correction unit 34, a masking information calculation unit 35, and a GUI generation unit 36.
  • the audio signal of each object making up the content is supplied to the time-frequency conversion unit 31, and the metadata of each object making up the content is supplied to the gain correction unit 32 and the masking information calculation unit 35.
  • the time-frequency conversion unit 31 stores the audio of each of the N objects.
  • a signal is input.
  • the metadata of each of the N objects is input to the gain correction section 32 and the masking information calculation section 35.
  • the object metadata includes object position information and gain information specified (input) by the user by operating the input unit 21 or the like.
  • the object position information consists of, for example, a horizontal angle (Azimuth), a vertical angle (Elevation), and a distance (Radius). Note that the object position information is not limited to the above-mentioned notation, and may be written in other formats such as the XYZ format, for example.
  • the horizontal angle and the vertical angle are angles in the horizontal direction and vertical direction that indicate the position of the object as seen from the reference listening position in the three-dimensional space. Further, the distance (Radius) indicates the distance (radius) from the reference listening position to the object, which indicates the position of the object in the three-dimensional space.
  • the time-frequency conversion unit 31 performs time-frequency conversion using MDCT (Modified Discrete Cosine Transform) on the supplied audio signal of each object.
  • MDCT Modified Discrete Cosine Transform
  • the time-frequency conversion unit 31 supplies the frequency spectrum obtained by time-frequency conversion to the frequency spectrum correction unit 34.
  • the gain information included in the metadata may be supplied to the time-frequency converter 31, and the time-frequency converter 31 may perform gain correction on the audio signal or the frequency spectrum based on the gain information.
  • the gain correction section 32 obtains correction gain information based on the supplied metadata of each object and the three-dimensional equal loudness characteristic table held in the 3D auditory characteristic table holding section 33, and sends it to the frequency spectrum correction section 34. supply
  • This correction gain information is information indicating a gain for performing gain correction on the frequency spectrum of each object, taking into account three-dimensional equal loudness characteristics, according to the position of each object in three-dimensional space.
  • the subjective sound pressure sensitivity of humans that is, the auditory sensitivity (how they perceive the loudness of a sound)
  • the auditory sensitivity how they perceive the loudness of a sound
  • gain correction is performed in consideration of three-dimensional equal loudness characteristics.
  • the 3D auditory characteristic table holding unit 33 holds a three-dimensional equal loudness characteristic table shown in FIG.
  • the 3D equal loudness characteristic table contains information corresponding to each position in the 3D space (object position) determined by the horizontal angle (Azimuth) and vertical angle (Elevation) that constitute the object position information.
  • Gain correction value (dB) is stored.
  • the three-dimensional equal loudness characteristic table contains the direction of arrival of sound from the object that is the sound source to the listener, that is, the direction (position) of the sound source as seen from the listener, and the gain correction value corresponding to that direction. are associated.
  • the value of the distance (Radius) constituting the object position information is assumed to be 1.0 m.
  • the gain correction value shown by the three-dimensional equal loudness characteristic table is determined according to the human auditory characteristics with respect to the direction of arrival of the sound, and in particular, the loudness of the sound is constant regardless of the direction of arrival of the sound.
  • the gain correction amount is such that In other words, the gain correction value is a correction value for correcting the gain value based on auditory characteristics (three-dimensional equal loudness characteristics) regarding the arrival direction of sound.
  • the audio signal of the object is gain corrected using the gain correction value indicated by the three-dimensional equal loudness characteristic table, the sound of the same object will be heard at the same loudness regardless of the position of the object.
  • the position of the object is not necessarily at the position where the corresponding gain correction value is stored in the three-dimensional equal loudness characteristic table.
  • the 3D auditory characteristic table holding unit 33 holds the three-dimensional equal loudness characteristic table shown in FIG. 2, and the horizontal angle, vertical angle, and distance as object position information are -120 degrees, degrees, and 1.0m.
  • the three-dimensional equal loudness characteristic table in FIG. 2 does not store gain correction values corresponding to the horizontal angle "-120", the vertical angle "15", and the distance "1.0".
  • the gain correction unit 32 may calculate a gain correction value at a desired position by interpolation processing or the like using the gain correction value at the position. In other words, gain correction for the position indicated by the object position information is performed by performing interpolation processing etc. based on gain correction values associated with each of a plurality of positions in the vicinity of the position indicated by the object position information. A value is required.
  • one method of interpolating gain correction values is a method using VBAP (Vector Base Amplitude Panning).
  • VBAP (3-point VBAP) is an amplitude panning method often used in rendering three-dimensional spatial sound.
  • the position of the virtual speaker can be changed arbitrarily by giving weighted gains to each of the three real speakers in the vicinity of the virtual speaker and reproducing the sound source signal.
  • the direction of the composite vector obtained by weighting and adding the vector L1, vector L2, and vector L3 in the three directions from the listening position to each real speaker with the gain given to the real speaker is the direction of the virtual speaker (Lp).
  • the gain vg1, gain vg2, and gain vg3 of each actual speaker are determined so that they match. Specifically, assuming that the direction of the virtual speaker, that is, the vector from the listening position to the virtual speaker is vector Lp, gains vg1 to gain vg3 that satisfy the following equation (1) are obtained.
  • the positions of the three actual speakers mentioned above are assumed to be the positions where the three gain correction values CG1, gain correction value CG2, and gain correction value CG3 corresponding to the three-dimensional equal loudness characteristic table exist. Further, the position of the above-mentioned virtual speaker is assumed to be an arbitrary position for which there is no corresponding gain correction value in the three-dimensional equal loudness characteristic table.
  • the gain correction value CGp at the position of the virtual speaker can be obtained.
  • Equation (2) first, the above-mentioned weighted gains vg1, gains vg2, and gains vg3 obtained by VBAP are normalized so that the sum of squares becomes 1, and the ratios R1, R2, and The ratio R3 is found.
  • the synthesized gain obtained by weighting and adding the gain correction value CG1, gain correction value CG2, and gain correction value CG3 at the real speaker position is determined by the obtained ratio R1, ratio R2, and ratio R3.
  • the gain correction value CGp is taken as the gain correction value CGp.
  • the mesh is divided into multiple positions in the three-dimensional space where gain correction values are prepared. That is, if, for example, gain correction values are prepared for each of three positions in a three-dimensional space, one triangular area having these three positions as vertices is one mesh.
  • a desired position from which a gain correction value is to be obtained is set as a position of interest, and a mesh that includes the position of interest is specified.
  • the coefficients to be multiplied by the position vector indicating the position of each of the three vertices are determined by VBAP. It will be done.
  • the three coefficients obtained in this way are normalized so that the sum of squares becomes 1, and each is multiplied by the gain correction value of each of the three vertex positions of the mesh containing the position of interest,
  • the sum of the gain correction values multiplied by the coefficients is calculated as the gain correction value of the position of interest.
  • normalization may be performed by any method, such as by making the sum or the sum of cubes or more equal to 1.
  • the method for interpolating the gain correction value is not limited to interpolation using VBAP, but may be any other method.
  • the average value of the gain correction values at multiple positions is calculated at the position of interest. It may also be used as a gain correction value.
  • the gain correction value of the position closest to the position of interest and where the gain correction value is prepared (stored) is used as the gain correction value of the position of interest. You may also use it.
  • the gain correction unit 32 reads out the gain correction value associated with the position indicated by the object position information included in the metadata from the three-dimensional equal loudness characteristic table.
  • the gain correction value is supplied to the frequency spectrum correction section 34 as correction gain information.
  • the gain correction based on the gain information included in the metadata may be performed in the time-frequency conversion section 31 or may be performed in the frequency spectrum correction section 34.
  • the gain correction unit 32 performs gain correction based on the gain information and a gain correction value determined by object position information read from a three-dimensional equal loudness characteristic table. Generate correction gain information.
  • gain correction based on the correction gain information by performing gain correction based on the correction gain information, gain correction based on the gain information specified by the user and gain correction based on a gain correction value that takes into account three-dimensional equal loudness characteristics are performed simultaneously. Become. In other words, the gain indicated by the gain information is corrected by the gain correction value. The following description will continue assuming that gain correction based on gain information is performed in the frequency spectrum correction section 34.
  • the frequency spectrum correction section 34 performs gain correction on the frequency spectrum supplied from the time-frequency conversion section 31 based on the correction gain information supplied from the gain correction section 32, and converts the resulting correction frequency spectrum into masking information. It is supplied to the calculation unit 35 and the GUI generation unit 36.
  • the corrected frequency spectrum of the object obtained by the frequency spectrum correction unit 34 is information indicating the frequency characteristics of the sound of the object that constitutes the content.
  • the corrected frequency spectrum has frequency characteristics that take into account three-dimensional equal loudness characteristics.
  • the masking information calculation unit 35 calculates the auditory masking amount at each frequency within the object, that is, the masking threshold (frequency masking threshold), for each object based on the corrected frequency spectrum of each object supplied from the frequency spectrum correction unit 34. Calculated as the intra-object masking threshold.
  • the masking threshold is the boundary threshold of sound pressure that becomes inaudible due to masking, and sounds smaller than the threshold are no longer perceived audibly.
  • the intra-object masking threshold is information indicating masking frequency characteristics regarding the sound of one object, that is, characteristics of masking between frequency components.
  • the masking frequency characteristic indicated by the intra-object masking threshold at each frequency will also be referred to as the intra-object masking frequency characteristic.
  • the sound of one object consists of multiple frequency components, and the sound of each frequency component masks the sound of other frequency components. That is, even if there is no sound source other than one object in the three-dimensional space, the sound with a high frequency component of the object masks other sounds with low frequencies in the vicinity of that frequency component.
  • frequency masking will be simply described as masking below, time-based masking may be used instead of frequency masking, or both frequency masking and time-based masking may be used.
  • characteristics related to masking thresholds that take into account at least one of frequency masking and temporal masking can be graphically displayed on the display unit 23.
  • Frequency masking is a phenomenon in which when sounds of multiple frequencies are played simultaneously, the sound of one frequency masks the sound of another frequency, making it difficult to hear.
  • Temporal masking is a phenomenon in which when a certain sound is played, the sounds played before and after it are masked, making them harder to hear.
  • the masking information calculation unit 35 calculates the distance between objects for each combination of two objects based on the corrected frequency spectrum of each object and the object position information included in the metadata of each object supplied from the input unit 21. A masking threshold is calculated.
  • the inter-object masking threshold is the auditory masking amount at each frequency between objects, that is, the masking threshold (spatial masking threshold).
  • the inter-object masking threshold is information indicating masking frequency characteristics regarding sounds between objects.
  • the masking frequency characteristic indicated by the inter-object masking threshold value at each frequency will also be referred to as the inter-object masking frequency characteristic.
  • the inter-object masking threshold can be determined using a table determined through a subjective evaluation experiment.
  • inter-object masking threshold is not limited to the method using a table determined by a subjective evaluation experiment, but may be determined by any other method.
  • a spatial masking model may be constructed using the results of a subjective evaluation experiment, and the inter-object masking threshold may be determined based on the spatial masking model.
  • the masking information calculation unit 35 calculates a composite value of inter-object masking thresholds between each object and other objects for each frequency, and sets the obtained composite value as a masking composite value (spatial masking threshold). .
  • the composite value of the inter-object masking thresholds may be, for example, an added value (total value) of a plurality of inter-object masking thresholds, or a value obtained by weighted addition of a plurality of inter-object masking thresholds using a predetermined weight. may be taken as
  • the weight used in the weighted addition may be determined based on the positional relationship or distance between the reference listening position and the object in the three-dimensional space, or may be determined based on the type of the object. may be predetermined. Further, weights may be determined for each frequency, and in particular, a common weight may be used for all objects determined for each frequency. Furthermore, the weights may be determined based on factors other than those described above.
  • the masking composite value is the auditory masking amount for each frequency regarding sounds from all other objects in the three-dimensional space of the object, that is, the masking threshold (spatial masking threshold). Note that the auditory masking amount for each frequency regarding sounds from some (two or more) other objects in the three-dimensional space of the object may be obtained as a masking composite value instead of all other objects. Further, the masking composite value may be a composite value for each frequency of an inter-object masking threshold with a plurality of other objects and an intra-object masking threshold.
  • the masking frequency characteristic indicated by the masking composite value at each frequency will also be referred to as the composite masking frequency characteristic.
  • the masking information calculation unit 35 calculates an intra-object masking threshold (intra-object masking frequency characteristic), an inter-object masking threshold (inter-object masking frequency characteristic), and a masking composite value (combined masking frequency characteristic) for at least one object, It is supplied to the GUI generation unit 36.
  • the GUI generation unit 36 displays frequency characteristics based on the corrected frequency spectrum supplied from the frequency spectrum correction unit 34 and the intra-object masking threshold, inter-object masking threshold, and masking composite value supplied from the masking information calculation unit 35.
  • Image data for displaying the screen is generated and supplied to the display section 23.
  • the GUI generation unit 36 functions as a display control unit that causes the display unit 23 to display a frequency characteristic display screen and the like based on the image data.
  • a frequency characteristic, an intra-object masking frequency characteristic, an inter-object masking frequency characteristic, and a composite masking frequency characteristic are graphically displayed in consideration of the three-dimensional equal loudness characteristic of that object.
  • the GUI generation unit 36 displays on the display unit 23 a frequency characteristic, an intra-object masking frequency characteristic, an inter-object masking frequency characteristic, which takes into account three-dimensional equal loudness characteristics of the object, and display the combined masking frequency characteristics in a GUI graph.
  • the user can specify for which object the intra-object masking frequency characteristics etc. are to be displayed.
  • the object for which the intra-object masking frequency characteristics and the like are displayed on the frequency characteristic display screen will also be particularly referred to as the object of interest.
  • another object different from the object of interest when displaying the inter-object masking frequency characteristics is also referred to as a designated object.
  • the user can specify (select) which of object frequency characteristics, intra-object masking frequency characteristics, inter-object masking frequency characteristics, and composite masking frequency characteristics should be displayed in a graph on the frequency characteristics display screen. You can do it like this. At this time, any one or more of the object frequency characteristics, intra-object masking frequency characteristics, etc. may be specified.
  • the display unit 23 is composed of, for example, a display, and displays various images (screens) such as a frequency characteristic display screen based on the image data supplied from the GUI generation unit 36.
  • the frequency characteristics are changed according to the changes or additions.
  • the display screen is updated.
  • a frequency characteristic display screen shown in FIG. 3 is displayed on the display unit 23.
  • Curve L11 shows the intra-object masking frequency characteristic (intra-object masking threshold) of the object of interest
  • curve L12 shows the inter-object masking frequency characteristic (inter-object masking threshold) between the object of interest and the specified object.
  • the curve L13 shows the composite masking frequency characteristic (masking composite value) for the object of interest
  • the curve L14 shows the frequency characteristic (corrected frequency spectrum) of the object of interest considering the three-dimensional equal loudness characteristics.
  • the user operates the input unit 21 and specifies (adjusts) the object position information and gain information of each object while checking each frequency characteristic shown in the curves L11 to L14.
  • the frequency characteristic of the object of interest shown by curve L14 the frequency characteristic of the object of interest shown by curve L14, the inter-object masking frequency characteristic shown by curve L12, and the composite masking frequency characteristic shown by curve L13 are displayed graphically.
  • the frequency characteristic display screen shown in FIG. 3 not only the frequency characteristic of the object of interest but also the inter-object masking frequency characteristic and the composite masking frequency characteristic are graphically displayed. Therefore, the user can visually understand the effect of auditory masking between objects according to the object position information and gain information of each object.
  • the frequency characteristic display screen not only the frequency characteristic (corrected frequency spectrum) of the object of interest but also the frequency characteristics (corrected frequency spectrum) of other objects such as specified objects may be displayed.
  • the user may be able to specify (select) an object to be used in calculating the masking composite value (composite masking frequency characteristic).
  • the user selects one or more objects surrounding the object of interest in the three-dimensional space, and the composite value of the inter-object masking thresholds of those selected objects is determined as the masking composite value.
  • step S11 the input unit 21 inputs object position information and gain information in response to a user's designation operation.
  • the input unit 21 supplies the control unit 22 with a signal indicating object position information and gain information of the object specified by the user's specification operation. At this time, the user operates the input unit 21 as necessary to designate the object of interest and designated objects, and the input unit 21 also supplies a signal corresponding to the designation to the control unit 22.
  • step S12 the time-frequency conversion unit 31 performs time-frequency conversion on the supplied audio signal of each object, and supplies the resulting frequency spectrum to the frequency spectrum correction unit 34.
  • step S13 the frequency spectrum correction unit 34 performs gain correction on the frequency spectrum supplied from the time-frequency conversion unit 31, and supplies the resulting corrected frequency spectrum to the masking information calculation unit 35 and the GUI generation unit 36.
  • the gain correction unit 32 uses the object position information indicated by the object position information from the three-dimensional equal loudness characteristic table held in the 3D auditory characteristic table holding unit 33 based on the object position information included in the supplied metadata of each object.
  • the gain correction value associated with the position is read out.
  • the gain correction unit 32 calculates corrected gain information by correcting the gain information included in the metadata of the object based on the read gain correction value, and supplies it to the frequency spectrum correction unit 34.
  • the frequency spectrum correction unit 34 generates a corrected frequency spectrum by performing gain correction on the frequency spectrum supplied from the time-frequency conversion unit 31 based on the correction gain information supplied from the gain correction unit 32.
  • step S14 the masking information calculation unit 35 calculates an intra-object masking threshold for the target object indicated by the signal supplied from the input unit 21, based on the corrected frequency spectrum of the target object supplied from the frequency spectrum correction unit 34. do.
  • step S15 the masking information calculation unit 35 calculates an inter-object masking threshold between the object of interest and other objects based on the corrected frequency spectrum of each object and the object position information of each object supplied from the input unit 21. Calculate.
  • step S16 the masking information calculation unit 35 calculates a masking composite value for the object of interest by determining, for each frequency, a composite value of the inter-object masking thresholds determined for each object in step S15.
  • the masking information calculation unit 35 supplies the intra-object masking threshold, the inter-object masking threshold, and the masking composite value obtained in the above steps S14 to S16 to the GUI generation unit 36.
  • step S17 the GUI generation unit 36 generates image data of a frequency characteristic display screen according to the object of interest and designated object indicated by the signal supplied from the input unit 21, and displays the generated image data on the display unit 23. and display the frequency characteristics display screen.
  • the GUI generation unit 36 calculates the frequency based on the corrected frequency spectrum supplied from the frequency spectrum correction unit 34 and the intra-object masking threshold, inter-object masking threshold, and masking composite value supplied from the masking information calculation unit 35. Generate image data for the characteristic display screen.
  • the image data of the frequency characteristic display screen shown in FIG. 3, for example, is generated.
  • This frequency characteristic display screen takes into account the intra-object masking frequency characteristic of the object of interest, the inter-object masking frequency characteristic between the object of interest and another specified object, the composite masking frequency characteristic of the object of interest, and the three-dimensional equal loudness characteristic.
  • the frequency characteristics of the object of interest are displayed in a graph.
  • step S18 the control unit 22 determines whether to end the mixing, that is, the process of adjusting the object position information and gain information.
  • step S18 If it is determined in step S18 that the process is not finished yet, then the process returns to step S11, and the above-described process is repeated.
  • step S11 the object of interest or designated object is changed, or the object position information or gain information of an arbitrary object is changed (adjusted). Further, in step S11, a new object may be added, and object position information and gain information of the object may be input.
  • step S17 the display on the frequency characteristic display screen is updated in accordance with changes in the object of interest, designated objects, object position information, gain information, addition of new objects, and the like. That is, a corrected frequency spectrum reflecting changes and additions, intra-object masking frequency characteristics, inter-object masking frequency characteristics, and composite masking frequency characteristics are displayed.
  • control unit 22 Furthermore, if it is determined in step S18 that the process is to be terminated, the control unit 22 generates metadata for each object, consisting of object position information and gain information specified for each object, and records it in a recording unit (not shown). Then, the GUI display processing ends.
  • the information processing device 11 generates image data for a frequency characteristic display screen in which the inter-object masking frequency characteristic and the composite masking frequency characteristic are displayed in a graph, and displays the frequency characteristic display screen.
  • ⁇ Modification 1 of the first embodiment> ⁇ Other configuration examples of information processing device>
  • the information processing device 11 shown in FIG. 1 an example has been described in which three-dimensional equal loudness characteristics are taken into consideration depending on the position of each object in a three-dimensional space.
  • the three-dimensional equal loudness characteristics may not be particularly taken into consideration.
  • the information processing device 11 is configured as shown in FIG. 5, for example.
  • parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and the explanation thereof will be omitted as appropriate.
  • the information processing device 11 shown in FIG. 5 includes an input section 21, a control section 22, and a display section 23.
  • the control unit 22 also includes a time-frequency conversion unit 31, a masking information calculation unit 35, and a GUI generation unit 36.
  • the configuration of the information processing apparatus 11 shown in FIG. 5 is different from the information processing apparatus 11 shown in FIG. However, in other respects, it has the same configuration as the information processing device 11 in FIG.
  • the time-frequency conversion unit 31 performs time-frequency conversion on the supplied audio signal of each object, and supplies the resulting frequency spectrum to the masking information calculation unit 35 and the GUI generation unit 36. At this time, the time-frequency conversion unit 31 performs gain correction on the audio signal or frequency spectrum based on gain information included in the supplied metadata. Therefore, the masking information calculation section 35 and the GUI generation section 36 are supplied with a frequency spectrum that has undergone gain correction based on the gain information.
  • the masking information calculation unit 35 calculates an intra-object masking threshold, an inter-object masking threshold, and masking synthesis based on the frequency spectrum of each object supplied from the time-frequency conversion unit 31 and the supplied object position information of each object. The value is determined and supplied to the GUI generation section 36.
  • the GUI generation unit 36 generates a frequency characteristic display screen based on the frequency spectrum supplied from the time-frequency conversion unit 31 and the intra-object masking threshold, inter-object masking threshold, and masking composite value supplied from the masking information calculation unit 35. Image data for displaying is generated and supplied to the display unit 23.
  • the frequency characteristic display screen displays a frequency spectrum in which the three-dimensional equal loudness characteristic is not considered, that is, a frequency spectrum obtained by the time-frequency conversion unit 31, as the frequency characteristic of the object of interest.
  • auditory masking spatial masking
  • the effect of auditory masking is affected by reflections and reverberations of a room or the like forming a virtual three-dimensional space in which an object is placed.
  • the spatial masking threshold from a certain object can be thought of as the sum of the masking by the direct sound of that object and the masking from the virtual reflective object. can.
  • a listener U11, an object OB11, and an object OB12 are placed in a room (space) surrounded by a wall WL11.
  • object OB11 and object OB12 are placed on a circle centered on listener U11.
  • the object OB11 in front of the listener U11 is set as the object of interest, and the object OB12 is set as the designated object. That is, assume that the sound from object OB11 is the sound to be masked, and the sound from object OB12 is the sound to mask the sound from object OB11.
  • the listener U11 hears the sound emitted from the object OB12, which is the direct sound that reaches the listener U11 directly from the object OB12, and the direct sound that is emitted from the object OB12 and reflected at the position P11 on the wall WL11. You will hear the reflected sound reaching U11.
  • the inter-object masking threshold between object OB11 and object OB12 which is the object of interest, is the inter-object masking threshold between the direct sound of object OB12 and the inter-object masking threshold between the reflected sound of object OB12.
  • reflection object OB13 may be placed at the intersection of the circle in which object OB11 and object OB12 are placed and the path of the reflected sound from object OB12.
  • This reflection object OB13 is a virtual object corresponding to the reflected sound from the object OB12.
  • the position of the reflective object OB13 can be determined, for example, from the object position information of the object OB12 and the position of the wall WL11 using a mirror image method or the like.
  • the sum of the inter-object masking threshold between object OB11 and object OB12 (direct sound) and the inter-object masking threshold between object OB11 and reflected object OB13 (reflected sound) is the final It is determined as the inter-object masking threshold between object OB11 and object OB12.
  • the inter-object masking threshold for direct sound and the inter-object masking threshold for reflected sound may be synthesized by weighted addition or the like, and the resulting composite value may be used as the final inter-object masking threshold.
  • reflected sound can be broadly divided into early reflected sound and rear reverberant sound, different weighting may be applied to the early reflected sound and rear reverberant sound in the synthesis process.
  • the time (pre-delay) from when the direct sound is heard until the reverberant sound starts to be heard may be taken into consideration.
  • the directivity of each object may be taken into consideration.
  • the inter-object masking threshold and the masking composite value when listening to the sound of an object in a room or the like as a three-dimensional space in which the object is placed can be displayed in a graph on the display unit 23.
  • the position (object position information), gain (gain information), and frequency characteristics (frequency spectrum) of the reflected sound (reflecting object) are determined by acoustic simulation using the direct sound audio signal, object position information, and acoustic parameters. You can ask for it.
  • the acoustic parameters include, for example, the size of the room as a three-dimensional space in which the object is placed, the reflectance of the wall, the position of the wall (shape of the room), etc. This is a parameter related to the acoustic characteristics of a three-dimensional space.
  • a geometric acoustic simulation such as a mirror image method can be performed. By doing so, it is possible to display a spatial masking threshold that is close to when the object's sound is heard in the target room.
  • the user may be able to select any one of the following three setting methods ST1 to ST3, for example.
  • Setting method ST1 User selects from acoustic parameters prepared as presets
  • Setting method ST2 User inputs acoustic parameters
  • Setting method ST3 Calculates acoustic parameters from measured data selected by user
  • acoustic parameters for each of a plurality of spaces are prepared in advance as presets. Then, the user selects one desired acoustic parameter from among the plurality of preset acoustic parameters.
  • the user may be allowed to select presets (acoustic parameters) set in the past by a famous mixing engineer. By doing this, it is possible to reduce the barriers faced by beginners and creators with little mixing experience when creating content.
  • the user operates the input unit 21 to directly input parameters related to the acoustic characteristics of the space, such as the size of the room (space) and the reflectance of the walls, as acoustic parameters. Then, acoustic simulation is performed using the acoustic parameters input by the user.
  • measurements are made in advance of acoustic characteristics such as impulse responses using a microphone, etc. in a real (actual) room or other space that corresponds to the three-dimensional space in which the object is placed, and the measurement results are compared to the actual measurement data. Prepared as a file.
  • acoustic parameters are calculated based on the selected measured data, and the acoustic The parameters are used to perform an acoustic simulation.
  • the setting method ST3 actual measurement data of a studio used by a famous artist may be stored, and by selecting the actual measurement data, it may be possible to reproduce a mixing environment similar to that of the artist.
  • the information processing device 11 When the frequency characteristic display screen is displayed taking into account the reflection of sound within the space, the information processing device 11 is configured as shown in FIG. 7, for example. Note that in FIG. 7, parts corresponding to those in FIG. 5 are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the information processing device 11 shown in FIG. 7 includes an input section 21, a control section 22, and a display section 23.
  • the control unit 22 also includes a time-frequency conversion unit 31, a reflective object calculation unit 61, a masking information calculation unit 35, and a GUI generation unit 36.
  • the configuration of the information processing device 11 shown in FIG. 7 is such that a reflective object calculation unit 61 is newly provided in the information processing device 11 shown in FIG. 5.
  • the reflection object calculation unit 61 sets acoustic parameters based on the signal supplied from the input unit 21.
  • the reflection object calculation unit 61 performs an acoustic simulation based on the supplied metadata of each object, the frequency spectrum of each object supplied from the time-frequency conversion unit 31, and the acoustic parameters.
  • the reflective object calculation section 61 supplies object position information and frequency spectrum of the reflective object obtained by the acoustic simulation to the masking information calculation section 35.
  • the masking information calculation unit 35 calculates the frequency spectrum of each object supplied from the time-frequency conversion unit 31, the supplied object position information of each object, and the object position information of the reflective object supplied from the reflection object calculation unit 61. Based on the frequency spectrum, an intra-object masking threshold, an inter-object masking threshold, and a masking composite value are determined and supplied to the GUI generation unit 36.
  • the information processing device 11 shown in FIG. 7 may also perform gain correction based on a three-dimensional equal loudness characteristic table.
  • GUI display processing performed by the information processing device 11 having the configuration shown in FIG. 7 will be described. That is, the GUI display processing performed by the information processing device 11 when sound reflection within a space is taken into consideration will be described below with reference to the flowchart of FIG. 8.
  • step S51 the reflection object calculation unit 61 sets the acoustic parameters based on the signal supplied from the input unit 21 according to the user's operation.
  • the reflection object calculation unit 61 uses the acoustic parameter selected by the user for the acoustic simulation. Set as .
  • the reflection object calculation unit 61 sets the acoustic parameters input by the user as those to be used in the acoustic simulation.
  • the reflective object calculation unit 61 calculates the reflection object based on the actual measurement data selected by the user. and calculate the acoustic parameters. The reflection object calculation unit 61 then sets the calculated acoustic parameters as those to be used in the acoustic simulation.
  • step S52 and step S53 are then performed to generate a frequency spectrum for the direct sound of each object. Note that these processes are similar to the processes in step S11 and step S12 in FIG. 4, so the explanation thereof will be omitted.
  • step S53 the time-frequency conversion unit 31 appropriately performs gain correction on the audio signal or frequency spectrum based on the gain information included in the supplied metadata before or after the time-frequency conversion.
  • the time-frequency conversion unit 31 supplies the frequency spectrum of the direct sound of each object obtained by time-frequency conversion and gain correction to the reflection object calculation unit 61, the masking information calculation unit 35, and the GUI generation unit 36.
  • step S54 the reflective object calculation unit 61 calculates the frequency spectrum of the reflective object (reflected sound) based on the supplied metadata of each object, the frequency spectrum of each object supplied from the time-frequency conversion unit 31, and the acoustic parameters. and generate object position information.
  • the reflective object calculation unit 61 performs an acoustic simulation based on the metadata of the direct sound of the object, that is, the object position information and gain information, the frequency spectrum of the direct sound of the object, and the acoustic parameters set in step S51. , find the object position information and frequency spectrum of the reflective object.
  • the object position information of a reflective object is based on the object position information of the object that is the source of the reflected sound and the shape and size of the three-dimensional space, that is, the placement position and orientation of the wall. It is fixed.
  • the gain information of the reflective object may be determined by acoustic simulation, and the frequency spectrum of the reflective object may be determined from the gain information and the frequency spectrum of the direct sound or the audio signal.
  • the gain information of the reflecting object includes the gain information and object position information of the object that is the source of the reflected sound, the object position information of the reflecting object, the shape and size of the three-dimensional space, and the information on the walls of the room forming the three-dimensional space. Determined by reflectance, directivity of each object, etc.
  • a plurality of reflective objects may be generated for one object depending on the shape of the room as a three-dimensional space, etc.
  • step S55 the masking information calculation unit 35 calculates the intra-object masking threshold based on the frequency spectrum of the direct sound of each object supplied from the time-frequency conversion unit 31.
  • step S56 the masking information calculation unit 35 calculates the frequency spectrum supplied from the time-frequency conversion unit 31, the supplied metadata of each object, and the frequency spectrum of the reflection object supplied from the reflection object calculation unit 61. and the object position information, an inter-object masking threshold is calculated.
  • step S15 in FIG. 4 the same process as in step S15 in FIG. 4 is performed to calculate inter-object masking thresholds for the direct sound and reflected sound, and the sum of these inter-object masking thresholds is used as the final inter-object masking threshold. It is considered as a threshold value.
  • the inter-object masking threshold between the object of interest and the specified object that is a direct sound is calculated. Furthermore, an inter-object masking threshold between the object of interest and a reflective object corresponding to the specified object, which is a reflected sound, is also calculated. Then, the total value of the inter-object masking threshold between these specified objects and the inter-object masking threshold between one or more reflective objects is calculated, and the obtained total value is used to specify the object of interest. This is the final inter-object masking threshold between different objects.
  • the masking information calculation unit 35 calculates (calculates) the inter-object masking threshold based on the acoustic parameters indicating the acoustic characteristics of the three-dimensional space in which the object of interest and other objects are arranged. In other words, the masking information calculation unit 35 calculates the inter-object masking threshold based on the acoustic parameters.
  • step S58 the inter-object masking frequency characteristic and the composite masking frequency characteristic are displayed on the frequency characteristic display screen in which reflected sound is also taken into account, that is, the acoustic characteristics of a room as a three-dimensional space are also taken into account. become.
  • the information processing device 11 generates a frequency spectrum for the reflective object as well, and displays a frequency characteristic display screen on which the inter-object masking frequency characteristic, etc., which takes into consideration the acoustic characteristics of a room as a three-dimensional space, is displayed in a graph. Display.
  • the user can visually understand the effect of more accurate auditory masking between objects, taking into consideration the acoustic characteristics of the room, etc.
  • it is possible to reduce the number of audition confirmations required in the process of repeatedly adjusting object position information and gain information, and it is possible to produce 3D audio content in a shorter time.
  • ⁇ Third embodiment> ⁇ About upper limit setting>
  • an upper limit of the allowable masking composite value may be set for objects and frequencies that do not want to be masked from other objects.
  • the upper limit value may be set to a common value for all frequencies for one object, or may be set for each frequency for one object. Further, a common upper limit value for all frequencies or an upper limit value for each frequency may be set for a plurality of objects selected by the user.
  • an alert will be displayed on the GUI to the effect that the masking composite value has exceeded the upper limit value.
  • Figure 9 shows an example of an alert display. Note that in FIG. 9, parts corresponding to those in FIG. 3 are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • alert AL11 is displayed for frequency bands that exceed the upper limit.
  • This alert AL11 is a straight line indicating the upper limit value set for the frequency band.
  • the masking composite value shown by curve L13 is located above the straight line that is alert AL11, and the user can visually see in which frequency band and by how much the masking composite value is larger than the upper limit value.
  • the alert display when the masking composite value exceeds the upper limit value is not limited to the example shown in FIG. 9, and may be of any kind. Also, instead of displaying an alert, the user may be notified of the alert by means such as sound or vibration, or by combining the alert display with any means such as sound or vibration. good.
  • the method for setting the upper limit value by the user may be any method such as directly inputting the upper limit value or setting it using a GUI.
  • the user operates the input unit 21 to move the GUI displayed on the display unit 23, that is, the bar representing the upper limit value on the setting screen, etc., such as a graphical EQ (Equalizer). It may also be possible to set an upper limit value.
  • the GUI displayed on the display unit 23 that is, the bar representing the upper limit value on the setting screen, etc., such as a graphical EQ (Equalizer). It may also be possible to set an upper limit value.
  • the information processing device 11 performs music analysis based on the audio signal of the object, and based on the analysis results such as the genre and melody of the content obtained as a result, the upper limit value is automatically set without user operation. may be set.
  • the important vocal frequency band can be automatically determined based on the analysis result, and the upper limit value can be set based on the determination result.
  • the important frequency bands of the Guitar can be automatically determined based on the analysis results, and the upper limit value can be set based on the determination results.
  • the information processing device 11 sets the upper limit value of the masking composite value
  • the information processing device 11 is configured as shown in FIG. 10, for example. Note that in FIG. 10, parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the configuration of the information processing device 11 shown in FIG. 10 differs from the configuration shown in FIG. 1 in that an upper limit setting unit 91 is newly provided in the control unit 22, and in other respects, the configuration is the same as the example shown in FIG. 1. It has the same configuration.
  • the upper limit value setting unit 91 sets the upper limit value of the masking composite value for the object, and supplies the setting result to the GUI generation unit 36.
  • step S101 the upper limit value setting unit 91 sets the upper limit value of the masking composite value for the object, and supplies the setting result to the GUI generation unit 36.
  • the upper limit value setting section 91 sets the upper limit value for each object or frequency based on the signal supplied from the input section 21 in response to the setting operation. Set an upper limit value for each.
  • the upper limit value setting unit 91 performs music analysis on the audio signal of the content obtained by adding the audio signals of all the supplied objects, and based on the analysis result, the upper limit value setting unit 91 Set.
  • steps S102 to S109 are then performed and the GUI display process ends; however, these processes are similar to those of steps S11 to S18 in FIG. The explanation will be omitted.
  • step S108 the GUI generation unit 36 determines whether the masking composite value obtained for the object of interest exceeds the upper limit based on the upper limit supplied from the upper limit setting unit 91 in step S101, A frequency characteristic display screen is generated according to the determination result.
  • the GUI generation unit 36 when it is determined that there is no masking composite value that exceeds the upper limit value, the GUI generation unit 36 generates image data that displays a frequency characteristic display screen without an alert display as shown in FIG. 3, for example. and supplies it to the display section 23.
  • the GUI generation unit 36 determines that there is a masking composite value that exceeds the upper limit. If it is determined that there is a masking composite value that exceeds the upper limit, the GUI generation unit 36 generates image data that displays a frequency characteristic display screen with an alert display, as shown in FIG. 9, for example. and supplies it to the display section 23.
  • the information processing device 11 generates image data for a frequency characteristic display screen according to the presence or absence of a masking composite value that exceeds the upper limit value, and displays the frequency characteristic display screen.
  • ⁇ Fourth embodiment> ⁇ About displaying candidates for moving objects> For example, if there is an object whose masking composite value exceeds the upper limit that is the set tolerance, by changing the position of that object or the position of other objects in 3D space, the masking composite value can be raised to the upper limit. Sometimes it is possible to avoid exceeding the value.
  • candidates may be obtained through analysis or the like, and the obtained candidates may be displayed on the GUI.
  • location candidates in addition to choosing locations where the masking composite value does not exceed the upper limit, we also select locations that do not give the user any audible discomfort, depending on the type of object and content type. The arrangement may be selected and displayed.
  • candidate destinations to which the entire group consisting of the plurality of objects should be moved may be simultaneously displayed on the GUI.
  • constraints can be added to candidate destinations that take into account the object positional relationship, such as maintaining the symmetrical positional relationship of each object or moving objects in parallel while maintaining the angle between them. You can also do this.
  • FIG. 12 shows an example of displaying candidates for moving the object position.
  • the screen shown on the left side of FIG. 12 is displayed on the display unit 23.
  • a three-dimensional space is shown on the display screen, and a plurality of objects including object OBJ31 are arranged on the three-dimensional space.
  • one sphere represents one object.
  • object OBJ31 is the object of interest
  • the masking composite value exceeds the upper limit at the placement position of object OBJ31 shown on the left side of the figure.
  • the masking information calculation unit 35 determines a position candidate for the object OBJ31 such that the masking composite value does not exceed the upper limit, that is, a candidate for the movement destination of the object OBJ31, and displays the position of the determined candidate. Ru.
  • the display on the display unit 23 is updated, for example, from the display shown on the left side of the figure to the display shown on the right side of the figure.
  • positions P51 to P53 are displayed as possible destinations for object OBJ31.
  • the user can specify any one of these three positions P51 to P53 as the destination position of the object OBJ31.
  • the object position information of object OBJ31 is updated (changed) so that the position indicated by the object position information becomes the position specified by the user. Ru.
  • step S141 to step S148 is the same as the processing from step S101 to step S108 in FIG. 11, so a description thereof will be omitted.
  • step S149 the GUI generation unit 36 determines whether to display object position information, that is, candidates for the destination of the object position in the three-dimensional space.
  • step S149 if there is a masking composite value of the object of interest that exceeds the upper limit, it is determined that candidates for the destination of the object position are to be displayed.
  • step S149 If it is determined in step S149 that candidates for the destination of the object position are not to be displayed, steps S150 and S151 are skipped, and the process then proceeds to step S152.
  • step S149 determines whether candidates for the destination of the object position are to be displayed. If it is determined in step S149 that candidates for the destination of the object position are to be displayed, then the process of step S150 is performed.
  • step S150 the masking information calculation unit 35 calculates a masking composite value for the object of interest while changing the object position information of a predetermined object, thereby finding a candidate for the destination of the object position.
  • the masking information calculation unit 35 performs the same processing as steps S15 and S16 in FIG. 4 based on the corrected frequency spectrum and object position information of each object while changing the object position information of a predetermined object. .
  • the masking information calculation unit 35 specifies the object position of a predetermined object at which the masking composite value does not exceed the upper limit value, and moves the specified object position. Let this be the object position that is the previous candidate.
  • the predetermined object whose object position information is to be changed may be the object of interest, a designated object, a predetermined number of objects closest to the object of interest, an object specified by the user, or the like. It's okay.
  • the number of object positions that are candidates for the movement destination may be one or multiple. If there is only one candidate position, for example, among the object positions where the masking composite value does not exceed the upper limit value, the position closest to the object position originally specified in the process of step S142 is selected as the candidate position.
  • candidate positions for movement destinations may be determined for a plurality of objects.
  • the masking information calculation unit 35 supplies the GUI generation unit 36 with object position information indicating a candidate for the movement destination of the obtained object position, that is, the candidate position.
  • step S151 the GUI generation unit 36 causes the display unit 23 to display the candidate positions supplied from the masking information calculation unit 35, that is, the candidates for the destination of the object position.
  • the GUI generation unit 36 generates image data for displaying a candidate position display screen that visually presents those candidate positions in a three-dimensional space, based on object position information indicating one or more candidate positions. generate.
  • an area consisting of the multiple candidate positions for the object in the three-dimensional space may be displayed on the candidate position display screen.
  • the GUI generation unit 36 causes the display unit 23 to display a candidate position display screen by supplying the generated image data to the display unit 23. As a result, the screen shown on the right side of FIG. 12, for example, is displayed. In this case, the display is performed so that it is easy to understand which candidate destination of the object is being presented and the position of the object before and after the movement.
  • the candidate position display screen may be displayed on the frequency characteristic display screen, or may be displayed as a separate screen from the frequency characteristic display screen.
  • step S151 If the process of step S151 is performed and the candidate position display screen is displayed, or if it is determined in step S149 that no candidates are to be displayed, the process then proceeds to step S152.
  • step S152 the control unit 22 determines whether to end the mixing, that is, the process of adjusting the object position information and gain information.
  • step S152 If it is determined in step S152 that the process is not finished yet, then the process returns to step S141, and the above-described process is repeated.
  • step S141 the process of step S141 is not performed.
  • step S142 the user operates the input unit 21 to specify a candidate position on the candidate position display screen, so that the user can instruct input of object position information, that is, change of object position information. It's okay.
  • step S152 the control unit 22 generates metadata for each object consisting of specified object position information and gain information, and records it in a recording unit (not shown). Then, the GUI display processing ends.
  • the information processing device 11 appropriately finds object position candidates and displays a candidate position display screen.
  • the object or frequency band for which the above-mentioned upper limit of the allowable masking composite value is set is considered to be an important object or frequency band that does not want to be masked from other objects.
  • setting information regarding such permissible spatial masking may be used at the time of bit allocation of the encoder.
  • the setting information is information regarding masking thresholds for important objects and frequencies that do not want to be masked from other objects.
  • the setting information includes an object ID indicating the object for which the allowable masking threshold, that is, the upper limit of the masking composite value (masking threshold) is set, information indicating the frequency for which the upper limit is set, and the set upper limit. Contains information indicating the value (acceptable masking threshold), etc.
  • a permissible masking threshold (upper limit of permissible masking composite value) is set for each frequency for each object.
  • bits are assigned preferentially to objects and frequencies that are considered important by the mixing engineer, resulting in a higher sound quality ratio than other objects and frequencies, improving the overall sound quality of the content and encoding efficiency. You can do it.
  • FIG. 14 is a diagram illustrating a configuration example of an encoder to which the present technology is applied.
  • the encoder 201 shown in FIG. 14 includes, for example, a signal processing device such as a computer that functions as an encoder (encoding device).
  • setting information is included in part of the content data in the form of object metadata, configuration information, etc., and is input together with the audio signal and metadata during encoding.
  • the encoder 201 includes a metadata encoding section 211, an object audio encoding section 212, and a packing section 213.
  • the metadata encoding unit 211 encodes the supplied metadata of each of the plurality of objects according to, for example, the MPEG (Moving Picture Experts Group)-H standard, etc., and sends the resulting encoded metadata to the packing unit 213. supply
  • information consisting of horizontal angle, vertical angle, and distance is object position information
  • other parameters include parameters for spread processing to widen the sound image, object priority, etc.
  • the parameters input as metadata are not limited to parameters expressed in polar coordinate format such as the horizontal angle (Azimuth), vertical angle (Elevation), and distance (Radius) described above, but also parameters expressed in XYZ format, for example. It may also be a parameter.
  • the metadata encoding unit 211 has a quantization unit 231 and an encoding unit 232, and metadata of each object is input to the quantization unit 231.
  • the quantization unit 231 quantizes the input (supplied) metadata and supplies the resulting quantization parameter to the encoding unit 232.
  • the encoding unit 232 encodes the quantization parameter supplied from the quantization unit 231 and supplies the resulting encoded metadata to the packing unit 213.
  • the object audio encoding unit 212 encodes the supplied audio signal of each object according to, for example, the MPEG-H standard, and supplies the resulting encoded audio signal to the packing unit 213.
  • the object audio encoding unit 212 includes a time-frequency conversion unit 241, a quantization unit 242, and an encoding unit 243.
  • the time-frequency conversion unit 241 performs time-frequency conversion using MDCT on the supplied audio signal of each object, and sends the resulting MDCT coefficients, which are frequency spectrum information of each object, to the quantization unit 242. supply
  • the quantization unit 242 quantizes the MDCT coefficients supplied from the time-frequency conversion unit 241, and converts the resulting quantized frequency spectrum information, that is, the quantized MDCT coefficients that are quantized frequency spectrum information, into an encoding unit. 243.
  • the quantization unit 242 includes a psychoacoustic parameter calculation unit 251 and a bit allocation unit 252.
  • the psychoacoustic parameter calculation unit 251 calculates psychoacoustic parameters for considering human auditory characteristics (auditory masking) based on the supplied setting information and the MDCT coefficients supplied from the time-frequency conversion unit 241. , is supplied to the bit allocation section 252.
  • the bit allocation unit 252 performs bit allocation processing based on the MDCT coefficients supplied from the time-frequency conversion unit 241 and the psychoacoustic parameters supplied from the psychoacoustic parameter calculation unit 251.
  • bit allocation is performed based on a psychoacoustic model, in which quantization bits and quantization noise for each scale factor band are calculated and evaluated. Then, the MDCT coefficients are quantized for each scale factor band based on the result of the bit allocation, and quantized MDCT coefficients are obtained (generated).
  • the bit allocation unit 252 encodes the quantized MDCT coefficients for each scale factor band of each object obtained in this way as a quantization result of each object, more specifically, a quantization result of the MDCT coefficient of each object. 243.
  • the scale factor band is a band (frequency band) obtained by bundling a plurality of subbands (in this case, resolution of MDCT) with a predetermined bandwidth based on human auditory characteristics.
  • the quantization noise generated in the quantization of MDCT coefficients is masked and some of the quantization bits in the scale factor band where it is not perceived are transferred to the scale factor band where quantization noise is easily perceived. be assigned (routed) to At this time, bits are preferentially allocated to important objects and frequencies (scale factor bands) according to the setting information. In other words, bits are appropriately allocated to objects and frequencies for which an upper limit value is set according to the upper limit value.
  • the psychoacoustic parameter calculation unit 251 calculates a masking threshold (psychoacoustic parameter) for each frequency for each object based on the setting information.
  • a masking threshold psychoacoustic parameter
  • quantization bits are allocated so that quantization noise does not exceed the masking threshold.
  • parameter adjustment is performed to reduce the allowable quantization noise for frequencies for which the upper limit is set by the setting information, and the psychoacoustic parameters are calculated.
  • the adjustment amount of the parameter adjustment may be changed depending on the allowable masking threshold value, that is, the upper limit value, indicated by the setting information. This makes it possible to allocate more bits to the corresponding frequency.
  • the encoding unit 243 encodes the quantized MDCT coefficients for each scale factor band of each object supplied from the bit allocation unit 252, and supplies the resulting encoded audio signal to the packing unit 213.
  • the packing unit 213 packs the encoded metadata supplied from the encoding unit 232 and the encoded audio signal supplied from the encoding unit 243, and outputs the resulting encoded bitstream.
  • step S241 the metadata encoding unit 211 encodes the metadata of each object, and supplies the resulting encoded metadata to the packing unit 213.
  • the quantization unit 231 quantizes the supplied metadata of each object, and supplies the resulting quantization parameter to the encoding unit 232. Furthermore, the encoding unit 232 encodes the quantization parameter supplied from the quantization unit 231 and supplies the encoded metadata obtained as a result to the packing unit 213.
  • step S242 the psychoacoustic parameter calculation unit 251 acquires setting information.
  • step S243 the time-frequency conversion unit 241 performs time-frequency conversion using MDCT on the supplied audio signal of each object, and generates MDCT coefficients for each scale factor band.
  • the time-frequency conversion section 241 supplies the generated MDCT coefficients to the psychoacoustic parameter calculation section 251 and the bit allocation section 252.
  • step S244 the psychoacoustic parameter calculation unit 251 calculates psychoacoustic parameters based on the setting information acquired in step S242 and the MDCT coefficients supplied from the time-frequency conversion unit 241, and supplies the calculated psychoacoustic parameters to the bit allocation unit 252.
  • the psychoacoustic parameter calculation unit 251 calculates the psychoacoustic parameter based on the upper limit value indicated by the setting information so that the allowable quantization noise is small for the object and frequency (scale factor band) indicated by the setting information. Calculate.
  • step S245 the bit allocation unit 252 performs bit allocation processing based on the MDCT coefficients supplied from the time-frequency conversion unit 241 and the psychoacoustic parameters supplied from the psychoacoustic parameter calculation unit 251.
  • the bit allocation unit 252 supplies the quantized MDCT coefficients obtained through the bit allocation process to the encoding unit 243.
  • step S246 the encoding unit 243 encodes the quantized MDCT coefficients supplied from the bit allocation unit 252, and supplies the resulting encoded audio signal to the packing unit 213.
  • the encoding unit 243 performs context-based arithmetic encoding on the quantized MDCT coefficients, and outputs the encoded quantized MDCT coefficients to the packing unit 213 as an encoded audio signal.
  • the encoding method is not limited to arithmetic encoding, and may be any other encoding method such as a Huffman encoding method or other encoding method.
  • step S247 the packing unit 213 packs the encoded metadata supplied from the encoder 232 and the encoded audio signal supplied from the encoder 243, and outputs the resulting encoded bitstream. do.
  • the encoded bitstream obtained by packing is output, the encoding process ends.
  • the encoder 201 calculates psychoacoustic parameters based on the setting information and performs bit allocation processing. By doing this, it is possible to increase bit allocation to objects and sounds in frequency bands that the content creator, that is, the mixing engineer, wants to give priority to, and it is possible to improve encoding efficiency.
  • the sound image position of the reproduced sound By combining the identification of the arrival direction of these external sounds and the adjustment of the sound image position of the reproduced sound, it is possible to prevent the sound from becoming difficult to hear when the external sound and the reproduced sound are in the same direction or in a direction where masking is stronger. On the other hand, by moving the sound image position of the reproduced sound to a position where masking is weaker, the audibility can be improved. Further, even when using a hearing aid device such as a hearing aid or a sound collector, the sound image position can be adjusted when the hearing aid device amplifies and reproduces the voice of a person speaking in front of the user.
  • a hearing aid device such as a hearing aid or a sound collector
  • an external sound (noise) object OBJ71 is placed in the front direction, and the sound that you want to hear, such as voices or dangerous sounds, is diagonally in front of you to the right. Assume that object OBJ72 (target sound) is placed.
  • a sound that the user wants to hear is played in the direction of an object OBJ72 located diagonally to the right in front of the user at the listening position LP11.
  • the user can move the placement position of the object OBJ72, which is represented by a ball and corresponds to the target sound, so that the user can find the position where the object OBJ72 is most likely to hear the target sound. It would be nice to have an application program that can help you find out if you can hear easily.
  • the user may be possible for the user to adjust the placement position of the object OBJ72 corresponding to the target sound on a playback position adjustment screen using an application program running on a smartphone, tablet, personal computer, etc.
  • the user adjusts the placement position of the object OBJ72 by, for example, touching the playback position adjustment screen with a finger or operating a mouse or the like.
  • the direction of arrival of the external sound (non-target sound) and target sound corresponding to object OBJ71 and object OBJ72 can be reproduced by signal processing using HRTF or the like.
  • the target sound can be adjusted so that the user who is a hearing aid user can hear the target sound most easily. It is possible to search for the placement position of object OBJ72 and set it in the hearing aid device. In this way, when the hearing aid device is actually used, the direction of arrival of external sounds can be estimated, and based on the estimation results, the sound image position of the sound you want to hear (target sound), such as a voice, can be moved to a set position that is less likely to be masked. position to make it easier to hear the target sound.
  • target sound such as a voice
  • the control unit 22 controls the display unit 23 to display the playback position adjustment screen shown in FIG. 16. At this time, the control unit 22 controls the display unit 23 to display the object OBJ72 of the target sound on the playback position adjustment screen (three-dimensional space) based on the signal according to the user's operation supplied from the input unit 21. Move the placement position of.
  • control unit 22 outputs position information indicating the placement position of the external sound (object OBJ71) and the purpose for each placement position of the external sound in accordance with a signal corresponding to the user's operation supplied from the input unit 21.
  • Arrangement setting information consisting of position information indicating the arrangement position of the sound (object OBJ72) is generated and recorded.
  • the placement position information indicates the direction of arrival of the external sound and the direction set by the user with respect to the direction of arrival of the external sound in which the target sound is easy to hear, that is, the direction of arrival of the target sound that is easy to hear. It is information.
  • a frequency characteristic display screen for the target sound and external sound, etc. may be displayed on the display unit 23 as appropriate. Further, the control unit 22 generates an audio signal in which an external sound at a sound image position corresponding to the arrangement position of object OBJ71 and a target sound at a sound image position corresponding to the arrangement position of object OBJ72 are reproduced, and outputs the audio signal to a speaker (not shown). The external sound and the target sound may be played back.
  • the control unit 22 outputs the generated placement setting information to the hearing aid device connected to the information processing device 11, and the hearing aid device uses the placement setting information supplied from the information processing device 11 as appropriate.
  • the arrangement setting information may be supplied from the information processing device 11 to the hearing aid device via a network or another device.
  • the audio playback device that functions as a hearing aid device that uses the placement setting information supplied from the information processing device 11 is configured as shown in FIG. 17, for example.
  • the audio playback device 301 shown in FIG. 17 includes an acquisition section 311, a recording section 312, a sound collection section 313, a control section 314, and a playback section 315.
  • the audio reproduction device 301 may be an earphone or headphone, or may be a hearing aid device such as a hearing aid or a sound collector.
  • the acquisition unit 311 acquires layout setting information from an external device such as the information processing device 11, supplies it to the recording unit 312, and records the information.
  • the recording unit 312 records various data such as the layout setting information and HRTF supplied from the acquisition unit 311, and supplies the recorded data to the control unit 314 as appropriate.
  • the sound collection unit 313 includes, for example, one or more microphone units, and collects surrounding sounds including external sounds and target sounds, and supplies the resulting sound collection signal to the control unit 314.
  • the control unit 314 generates a playback signal with amplified audio based on the collected sound signal supplied from the sound collection unit 313 and supplies it to the playback unit 315.
  • control unit 314 performs signal processing based on the collected sound signal, such as sound source separation and arrival direction estimation for the collected sound signal, and also stores placement setting information corresponding to the estimation result of the arrival direction of the external sound to the recording unit 314. Read from. That is, the arrangement setting information in which the direction of the position indicated by the external sound position information is the same as the direction of arrival estimation result is read out.
  • processing for estimating the arrival direction of external sound based on at least the collected sound signal is performed as signal processing.
  • processing such as sound source separation for extracting external sound signals and target sound signals from collected sound signals, hearing aid processing, etc. may be performed.
  • the user sets the placement position of the target sound that is less likely to be masked, that is, the direction of arrival of the target sound (hereinafter also referred to as the set arrival direction) with respect to the estimated direction of arrival of the external sound. can be specified.
  • the control unit 314 reads the HRTF for the set direction of arrival from the recording unit 312, and performs signal processing based on the read HRTF and the collected sound signal, more specifically, the target sound signal obtained from the collected sound signal. By doing this, a playback signal is generated.
  • the process of adjusting the arrival direction (sound image position) of the target sound performed when generating the reproduction signal is not limited to the process using HRTF, and may be any type of process such as EQ or panning.
  • the reproduced signal obtained in this way is a sound in which the sound image of the target sound is localized in the direction in which the target sound can be easily heard (set arrival direction), which is indicated by the placement setting information corresponding to the estimation result of the arrival direction of the external sound.
  • This is a signal, that is, an audio signal in which the target sound can be heard from the set direction of arrival. Therefore, by reproducing audio based on the reproduction signal, the target sound is less likely to be masked by external sounds, and the target sound can be made easier to hear.
  • the reproduction section 315 is composed of, for example, a speaker unit, and reproduces (outputs) audio based on the reproduction signal supplied from the control section 314.
  • the audio reproduction device 301 it is possible to make the target sound easier to hear regardless of the direction of arrival of the external sound.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer built into dedicated hardware and, for example, a general-purpose personal computer that can execute various functions by installing various programs.
  • FIG. 18 is a block diagram showing an example of a hardware configuration of a computer that executes the above-described series of processes using a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 505 is further connected to the bus 504.
  • An input section 506 , an output section 507 , a recording section 508 , a communication section 509 , and a drive 510 are connected to the input/output interface 505 .
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 executes the above-described series by, for example, loading a program recorded in the recording unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executing it. processing is performed.
  • a program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as a package medium, for example. Additionally, programs may be provided via wired or wireless transmission media, such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input/output interface 505 by loading the removable recording medium 511 into the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. Other programs can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, in parallel, or at necessary timing such as when a call is made. It may also be a program that performs processing.
  • embodiments of the present technology are not limited to the embodiments described above, and various changes can be made without departing from the gist of the present technology.
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • a masking information calculation unit that calculates a masking amount as an inter-object masking frequency characteristic
  • An information processing device comprising: a display control unit that displays the frequency spectrum of the object of interest and the inter-object masking frequency characteristic.
  • the masking information calculation unit calculates a composite value for each frequency of the auditory masking amount between the object of interest and each of the plurality of other objects as a composite masking frequency characteristic, The information processing device according to (1), wherein the display control unit further displays the composite masking frequency characteristic of the object of interest.
  • the masking information calculation unit includes: calculating an auditory masking amount for each frequency within the object of interest based on the frequency spectrum of the object of interest; As described in (2), a composite value for each frequency of the auditory masking amount between the object of interest and each of the plurality of other objects and the auditory masking amount within the object of interest is calculated as the composite masking frequency characteristic. information processing equipment. (4) The information processing device according to (2), wherein, when the composite value exceeds a predetermined upper limit, the display control unit notifies the user that the composite value exceeds the upper limit. (5) The information processing device according to (4), wherein the upper limit value is set by the user for each object or for each frequency.
  • the information processing device according to (4) or (5), further comprising an upper limit value setting unit that sets the upper limit value based on the audio signal of one or more objects.
  • the masking information calculation unit calculates an auditory masking amount of each frequency within the object of interest as an intra-object masking frequency characteristic, based on the frequency spectrum of the object of interest,
  • the information processing device according to any one of (1) to (7), wherein the display control unit further displays the intra-object masking frequency characteristic of the object of interest.
  • (9) further comprising a frequency spectrum correction unit that performs gain correction of the frequency spectrum of the object based on gain information of the object and generates a corrected frequency spectrum,
  • the masking information calculation unit calculates the inter-object masking frequency characteristic based on the corrected frequency spectrum and the object position information of the object of interest and the corrected frequency spectrum and object position information of the other object.
  • the information processing device according to any one of (1) to (8), wherein the display control unit displays the corrected frequency spectrum of the object of interest and the inter-object masking frequency characteristic. (10) When at least one of the gain information of the object of interest and the gain information of the other object is changed, The information processing device according to (9), wherein the display control unit displays the corrected frequency spectrum and the inter-object masking frequency characteristic in which the change of the object of interest is reflected.
  • (11) further comprising a frequency spectrum correction unit that performs gain correction of the frequency spectrum of the object based on the gain correction value determined by the object position information and generates a corrected frequency spectrum
  • the masking information calculation unit calculates the inter-object masking frequency characteristic based on the corrected frequency spectrum and the object position information of the object of interest and the corrected frequency spectrum and object position information of the other object.
  • the information processing device according to any one of (1) to (8), wherein the display control unit displays the corrected frequency spectrum of the object of interest and the inter-object masking frequency characteristic.
  • the information processing device When at least one of the object position information of the object of interest and the object position information of the other object is changed, The information processing device according to any one of (1) to (11), wherein the display control unit displays the frequency spectrum and the inter-object masking frequency characteristic in which the change of the object of interest is reflected. (13) The masking information calculation unit calculates the inter-object masking frequency characteristic based on acoustic parameters indicating acoustic characteristics of a space in which the object of interest and the other object are arranged. The information processing device described in .
  • the acoustic parameters used for calculating the inter-object masking frequency characteristics may be selected by the user from among a plurality of acoustic parameters prepared in advance, the acoustic parameters input by the user, or the acoustic parameters selected from a plurality of acoustic parameters prepared in advance.
  • the acoustic parameter includes at least one of the size of the space, the shape of the space, and the reflectance of a wall in the space.
  • the information processing device Based on the frequency spectrum and object position information of the object of interest and the frequency spectrum and object position information of another object different from the object of interest, the hearing of each frequency between the object of interest and the other object is determined. Calculate the amount of masking as the inter-object masking frequency characteristic, An information processing method comprising: displaying the frequency spectrum of the object of interest and the inter-object masking frequency characteristic. (17) Based on the frequency spectrum and object position information of the object of interest and the frequency spectrum and object position information of another object different from the object of interest, the hearing of each frequency between the object of interest and the other object is determined.
  • a program that causes a computer to execute processing including the step of displaying the frequency spectrum of the object of interest and the inter-object masking frequency characteristic.
  • a time-frequency conversion unit that performs time-frequency conversion on the audio signal of the object and generates frequency spectrum information
  • a psychoacoustic parameter calculation unit that calculates a psychoacoustic parameter based on the frequency spectrum information and setting information regarding a masking threshold for the object
  • a bit allocation unit that performs bit allocation processing based on the psychoacoustic parameter and the frequency spectrum information to generate quantized frequency spectrum information.
  • a recording unit that records placement setting information indicating a direction of arrival of an external sound and a direction in which a target sound is likely to be heard with respect to the direction of arrival of the external sound;
  • a sound collection unit that collects surrounding sounds, The direction of arrival of the external sound is estimated based on the sound pickup signal obtained by the sound collection, and the direction of arrival of the external sound is indicated by the placement setting information corresponding to the estimation result of the direction of arrival of the external sound based on the sound pickup signal.
  • a control unit that generates a reproduction signal that localizes a sound image of the target sound in a direction where the target sound is easily heard;
  • An audio reproduction device comprising: a reproduction section that reproduces audio based on the reproduction signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より短い時間でコンテンツを制作することができるようにする情報処理装置および方法、符号化装置、音声再生装置、並びにプログラムに関する。 情報処理装置は、注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、注目オブジェクトとは異なる他のオブジェクトの周波数スペクトルおよびオブジェクト位置情報とに基づいて、注目オブジェクトの他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算するマスキング情報計算部と、注目オブジェクトの周波数スペクトルおよびオブジェクト間マスキング周波数特性を表示させる表示制御部とを備える。本技術は情報処理装置に適用することができる。

Description

情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム
 本技術は、情報処理装置および方法、符号化装置、音声再生装置、並びにプログラムに関し、特に、より短い時間でコンテンツを制作することができるようにした情報処理装置および方法、符号化装置、音声再生装置、並びにプログラムに関する。
 3Dオーディオは、従来の2chオーディオとは異なる、360度の全方向から音が聞こえる新しい音楽体験を提供することができる。特に3Dオーディオのフォーマットの1つであるオブジェクトオーディオでは、空間上の任意の位置にオーディオオブジェクト(以下、単にオブジェクトとも称する)と呼ばれる音源を配置することで、様々な音を表現できる。
 3Dオーディオのさらなる普及のためには、質の高いコンテンツを数多く作り出すことが求められる。そこで重要になるのがミキシング作業、すなわち、各オブジェクトの3次元位置やゲインを決定する作業である。このようなミキシング作業を専門に行うミキシングエンジニアと呼ばれる人たちがいる。
 3Dオーディオコンテンツの制作方法の例を以下に示す。
 まずミキシングエンジニアは、例えばキックのオブジェクト、ベースのオブジェクト、ヴォーカルのオブジェクトなど、各楽器や効果音などのオーディオデータをオブジェクトごとに分かれた状態で受け取る。
 次にミキシングエンジニアは、コンテンツ全体や各オブジェクトの音の聞き込みを行う。このときミキシングエンジニアは、例えばジャンルや曲調など、コンテンツがどのような種別のものであるかや、楽器種別など、各オブジェクトがどのような種別のものであるか、さらには立ち上がり、持続時間など、各オブジェクトがどのような音の特徴を有しているかを分析する。
 そして、ミキシングエンジニアは、それらの分析結果を踏まえて、各オブジェクトを3次元空間上に配置する際の位置やゲインを決定する。したがって、同じ楽器種別のオブジェクトでも、オブジェクトが有する音の特徴や、楽曲のジャンル等によって、適切な3次元位置やゲインが変わるのである。
 ミキシングエンジニアは、最後に、実際に3次元空間上にオブジェクトを配置した状態で再生される音を試聴し、オブジェクト間の聴覚マスキング、つまり重要な音が他の音にマスクされて聴こえ難くなっていないかを確認する。ミキシングエンジニアは、重要な音が他の音にマスキングされている場合には、オブジェクトの位置やゲインを調整することで、最適な聴こえになるように調整を繰り返す。
 なお、ここでいう聴覚マスキングとは、ある周波数の音が同時に再生される別の周波数の音をマスクする周波数マスキング(同時刻マスキング)のことである。
 ミキシング作業には、このような音の聞き込み、および音の聞き込みに基づいたオブジェクトの3次元位置とゲインの決定において、高度な経験や知識と時間を要する。
 コンテンツの規模にもよるが、ミキシングエンジニアが1つのコンテンツのミキシングを行うのに数時間程度かかるのが一般的である。ミキシング作業を短時間化することができれば、より多くの3Dオーディオコンテンツを制作できるようになり、3Dオーディオのさらなる普及に繋がる。
 オブジェクトオーディオにおけるミキシング、すなわちオブジェクトの3次元位置情報やゲイン等の決定を短時間化する技術として、オブジェクトのオーディオ信号から自動でオブジェクトの位置やゲインを決定するものが提案されている(例えば、特許文献1参照)。
国際公開第2020/066681号
 しかしながら、上述した技術を用いても、3次元空間におけるオブジェクト間のマスキングの影響についてミキシングエンジニアが試聴確認を行い、オブジェクトの位置やゲインを調整する工程が必要になる。そのため、3Dオーディオコンテンツの制作時間のさらなる短時間化が望まれている。
 本技術は、このような状況に鑑みてなされたものであり、より短い時間でコンテンツを制作することができるようにするものである。
 本技術の第1の側面の情報処理装置は、注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算するマスキング情報計算部と、前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる表示制御部とを備える。
 本技術の第1の側面の情報処理方法またはプログラムは、注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算し、前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させるステップを含む。
 本技術の第1の側面においては、注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量がオブジェクト間マスキング周波数特性として計算され、前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性が表示される。
 本技術の第2の側面の符号化装置は、オブジェクトのオーディオ信号に対する時間周波数変換を行い、周波数スペクトル情報を生成する時間周波数変換部と、前記周波数スペクトル情報と、前記オブジェクトについてのマスキング閾値に関する設定情報とに基づいて聴覚心理パラメータを計算する聴覚心理パラメータ計算部と、前記聴覚心理パラメータおよび前記周波数スペクトル情報に基づいてビットアロケーション処理を行い、量子化周波数スペクトル情報を生成するビットアロケーション部とを備える。
 本技術の第2の側面においては、オブジェクトのオーディオ信号に対する時間周波数変換が行われ、周波数スペクトル情報が生成され、前記周波数スペクトル情報と、前記オブジェクトについてのマスキング閾値に関する設定情報とに基づいて聴覚心理パラメータが計算され、前記聴覚心理パラメータおよび前記周波数スペクトル情報に基づいてビットアロケーション処理が行われ、量子化周波数スペクトル情報が生成される。
 本技術の第3の側面の音声再生装置は、外部音の到来方向と、前記外部音の到来方向に対して、目的音が聞こえやすい方向とを示す配置設定情報を記録する記録部と、周囲の音を収音する収音部と、前記収音により得られた収音信号に基づいて前記外部音の到来方向を推定するとともに、前記収音信号に基づいて、前記外部音の到来方向の推定結果に対応する前記配置設定情報により示される前記目的音が聞こえやすい方向に、前記目的音の音像が定位する再生信号を生成する制御部と、前記再生信号に基づき音声を再生する再生部とを備える。
 本技術の第3の側面においては、外部音の到来方向と、前記外部音の到来方向に対して、目的音が聞こえやすい方向とを示す配置設定情報が記録されており、周囲の音が収音され、前記収音により得られた収音信号に基づいて前記外部音の到来方向が推定されるとともに、前記収音信号に基づいて、前記外部音の到来方向の推定結果に対応する前記配置設定情報により示される前記目的音が聞こえやすい方向に、前記目的音の音像が定位する再生信号が生成され、前記再生信号に基づき音声が再生される。
 本技術の第4の側面の情報処理装置は、空間上における外部音の配置位置と、目的音の配置位置とを示す位置調整画面を表示させるとともに、ユーザの操作に応じて、前記空間上における前記目的音の配置位置を移動させ、配置位置に応じた音像位置の前記外部音および前記目的音を再生させ、前記外部音の配置位置と前記目的音の配置位置に基づいて、前記外部音の到来方向と、前記外部音の到来方向に対して前記ユーザにより設定された、前記目的音が聞こえやすい方向とを示す配置設定情報を生成する制御部を備える。
 本技術の第4の側面においては、空間上における外部音の配置位置と、目的音の配置位置とを示す位置調整画面が表示されるとともに、ユーザの操作に応じて、前記空間上における前記目的音の配置位置が移動し、配置位置に応じた音像位置の前記外部音および前記目的音が再生され、前記外部音の配置位置と前記目的音の配置位置に基づいて、前記外部音の到来方向と、前記外部音の到来方向に対して前記ユーザにより設定された、前記目的音が聞こえやすい方向とを示す配置設定情報が生成される。
情報処理装置の構成例を示す図である。 3次元等ラウドネス特性テーブルの例を示す図である。 周波数特性表示画面の例を示す図である。 GUI表示処理を説明するフローチャートである。 情報処理装置の他の構成例を示す図である。 反射オブジェクトについて説明する図である。 情報処理装置の構成例を示す図である。 GUI表示処理を説明するフローチャートである。 アラート表示の一例を示す図である。 情報処理装置の構成例を示す図である。 GUI表示処理を説明するフローチャートである。 オブジェクトの移動先の候補の表示例を示す図である。 GUI表示処理を説明するフローチャートである。 エンコーダの構成例を示す図である。 符号化処理を説明するフローチャートである。 目的音の配置位置の調整例を示す図である。 音声再生装置の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈情報処理装置の構成例〉
 本技術は、3次元空間上におけるオブジェクト間の聴覚マスキングの周波数特性をGUI(Graphical User Interface)のグラフで表示することで、視覚的にオブジェクト間のマスキング効果を理解することができるようにするものである。これにより、オブジェクト位置とゲインの調整の繰り返しに必要な試聴回数を減らすことができ、コンテンツの制作時間をより短くすることができる。
 図1は、本技術を適用した情報処理装置の一実施の形態の構成例を示す図である。
 図1に示す情報処理装置11は、例えばパーソナルコンピュータなどからなる。
 ミキシングエンジニア(コンテンツ制作者)であるユーザは、情報処理装置11で動作するミキシングソフトウェア、すなわちコンテンツ制作ツールにより、3Dオーディオコンテンツを制作することができる。
 例えばユーザは、各楽器や効果音などのオブジェクトごとに分かれたオーディオ信号に対して、ミキシングソフトウェア上で3次元空間上のオブジェクトの位置を示すオブジェクト位置情報と、オブジェクトの音のゲインを示すゲイン情報を付与することでミキシングを行う。
 情報処理装置11は、入力部21、制御部22、および表示部23を有している。なお、表示部23は、情報処理装置11とは別の装置であってもよい。
 入力部21は、例えばマウスやキーボードなどからなり、ユーザの操作に応じた信号を制御部22に供給する。
 制御部22は、情報処理装置11全体の動作を制御する。制御部22は、時間周波数変換部31、ゲイン補正部32、3D聴覚特性テーブル保持部33、周波数スペクトル補正部34、マスキング情報計算部35、およびGUI生成部36を有している。
 制御部22においては、コンテンツを構成する各オブジェクトのオーディオ信号が時間周波数変換部31に供給され、コンテンツを構成する各オブジェクトのメタデータがゲイン補正部32およびマスキング情報計算部35に供給される。
 図1では、Object[k](但し、k=1,2,…,N)は、コンテンツを構成するk番目のオブジェクトを表しており、時間周波数変換部31にはN個の各オブジェクトのオーディオ信号が入力される。また、ゲイン補正部32およびマスキング情報計算部35にはN個の各オブジェクトのメタデータが入力される。
 ここで、オブジェクトのメタデータには、ユーザが入力部21を操作すること等により指定(入力)されたオブジェクト位置情報およびゲイン情報が含まれている。
 オブジェクト位置情報は、例えば水平角度(Azimuth)、垂直角度(Elevation)、および距離(Radius)からなる。なお、前述した表記に限らず、例えばXYZ形式などの他の形式でオブジェクト位置情報が記述されていてもよい。
 水平角度および垂直角度は、3次元空間における基準となる聴取位置から見たオブジェクトの位置を示す水平方向および垂直方向の角度である。また、距離(Radius)は3次元空間におけるオブジェクトの位置を示す、基準となる聴取位置からオブジェクトまでの距離(半径)を示している。
 時間周波数変換部31は、供給された各オブジェクトのオーディオ信号に対してMDCT(Modified Discrete Cosine Transform)(修正離散コサイン変換)を用いた時間周波数変換を行う。これにより、時間信号であるオーディオ信号が周波数領域の信号である周波数スペクトルに変換される。
 時間周波数変換部31は、時間周波数変換により得られた周波数スペクトルを周波数スペクトル補正部34に供給する。なお、メタデータに含まれるゲイン情報が時間周波数変換部31に供給され、時間周波数変換部31がゲイン情報に基づいて、オーディオ信号または周波数スペクトルに対するゲイン補正を行うようにしてもよい。
 ゲイン補正部32は、供給された各オブジェクトのメタデータと、3D聴覚特性テーブル保持部33に保持されている3次元等ラウドネス特性テーブルとに基づいて補正ゲイン情報を求め、周波数スペクトル補正部34に供給する。
 この補正ゲイン情報は、各オブジェクトの周波数スペクトルに対して、各オブジェクトの3次元空間上の位置に応じて、3次元等ラウドネス特性を考慮したゲイン補正を行うためのゲインを示す情報である。
 音源から聴取者への音の到来方向によって、人間(聴取者)の主観的な音圧感度、すなわち聴覚感度(音の大きさの感じ方)が異なることが知られている。例えばある音の音圧感度が高ければ、その分、その音はマスクされにくくなる(マスクしやすくなる)ため、周波数スペクトル補正部34では、このような音の到来方向と音圧感度に関する特性、すなわち3次元等ラウドネス特性が考慮されたゲイン補正が行われる。
 例えば3D聴覚特性テーブル保持部33には、図2に示す3次元等ラウドネス特性テーブルが保持されている。
 この例では、3次元等ラウドネス特性テーブルには、オブジェクト位置情報を構成する水平角度(Azimuth)と垂直角度(Elevation)により定まる3次元空間上の位置(オブジェクト位置)ごとに、その位置に対応するゲイン補正値(dB)が格納されている。
 換言すれば、3次元等ラウドネス特性テーブルには、音源であるオブジェクトから聴取者への音の到来方向、つまり聴取者から見た音源の方向(位置)と、その方向に応じたゲイン補正値とが対応付けられている。なお、ここではオブジェクト位置情報を構成する距離(Radius)の値は1.0mであるものとされている。
 3次元等ラウドネス特性テーブルにより示されるゲイン補正値は、音の到来方向に対する人の聴覚特性に応じて定められたものであり、特に音の到来方向によらず聴感上の音の大きさが一定になるようなゲイン補正量となっている。換言すれば、ゲイン補正値は、音の到来方向に関する聴覚特性(3次元等ラウドネス特性)に基づくゲイン値の補正を行うための補正値である。
 したがって、3次元等ラウドネス特性テーブルにより示されるゲイン補正値によりオブジェクトのオーディオ信号をゲイン補正すれば、オブジェクトの位置によらず、同じオブジェクトの音は同じ大きさで聞こえるようになる。
 例えば聴取者からに見て音源が正面にある場合、つまりAzimuthが0度であり、かつElevationが0度である場合(ゲイン補正値は「0.00」)と比較して、音源が聴取者から見て右側にある場合、つまりAzimuthが90度であり、かつElevationが0度である場合、聴取者には音源からの音が大きく聞こえる。そのため、Azimuth=90度、かつElevation=0度である位置に対しては、音源からの音が小さくなるようなゲイン補正を行うためのゲイン補正値「-0.52」が定められている。
 なお、オブジェクトの位置は、3次元等ラウドネス特性テーブルにおいて、対応するゲイン補正値が格納されている位置にあるとは限らない。
 具体的には、例えば3D聴覚特性テーブル保持部33に図2に示した3次元等ラウドネス特性テーブルが保持されており、オブジェクト位置情報としての水平角度、垂直角度、および距離が-120度、15度、および1.0mであるとする。
 この場合、図2の3次元等ラウドネス特性テーブルには、水平角度「-120」、垂直角度「15」、および距離「1.0」に対応するゲイン補正値は格納されていない。
 そこで、3次元等ラウドネス特性テーブルに、オブジェクト位置情報により示される位置に対応するゲイン補正値がない場合には、そのオブジェクト位置情報により示される位置に隣接する、対応するゲイン補正値が存在する複数の位置のゲイン補正値を用いて、ゲイン補正部32が補間処理等により所望の位置のゲイン補正値を算出するようにしてもよい。換言すれば、オブジェクト位置情報により示される位置の近傍にある、複数の各位置に対応付けられているゲイン補正値に基づいて補間処理等を行うことにより、オブジェクト位置情報により示される位置のゲイン補正値が求められる。
 例えば、ゲイン補正値の補間方法の1つとしてVBAP(Vector Base Amplitude Panning)を利用した方法がある。
 VBAP(3点VBAP)は、3次元空間音響のレンダリングでよく用いられる振幅パンニング手法である。
 VBAPでは、任意の仮想スピーカの近傍にある3つの実スピーカに対して、それぞれ重み付けのゲインを与えて音源信号を再生することで、仮想スピーカの位置を任意に変えることができる。
 その際、聴取位置から各実スピーカまでの3方向のベクトルL1、ベクトルL2、およびベクトルL3を、実スピーカに与えるゲインで重み付け加算して得られる合成ベクトルの向きが、仮想スピーカの向き(Lp)と一致するように各実スピーカのゲインvg1、ゲインvg2、およびゲインvg3が求められる。具体的には、仮想スピーカの向き、すなわち聴取位置から仮想スピーカまでのベクトルをベクトルLpとすると、次式(1)を満たすゲインvg1乃至ゲインvg3が求められる。
Figure JPOXMLDOC01-appb-M000001
 ここで、上述の3つの各実スピーカの位置を、3次元等ラウドネス特性テーブルに対応する3つのゲイン補正値CG1、ゲイン補正値CG2、およびゲイン補正値CG3が存在する位置とする。また、上述の仮想スピーカの位置を、3次元等ラウドネス特性テーブルに対応するゲイン補正値がない任意の位置とする。
 このとき、次式(2)を計算することで、仮想スピーカの位置におけるゲイン補正値CGpを得ることができる。
Figure JPOXMLDOC01-appb-M000002
 式(2)では、まず、VBAPで求めた上述の重み付けのゲインvg1、ゲインvg2、およびゲインvg3に対して2乗和が1になるように正規化が行われて比率R1、比率R2、および比率R3が求められる。
 そして、求められた比率R1、比率R2、および比率R3により、実スピーカ位置のゲイン補正値CG1、ゲイン補正値CG2、およびゲイン補正値CG3が重み付けされて加算された合成ゲインが、仮想スピーカの位置におけるゲイン補正値CGpとされる。
 具体的には、3次元空間内においてゲイン補正値が用意されている複数の位置でメッシュが区切られる。すなわち、例えば3次元空間内の3つの各位置のゲイン補正値が用意されているとすると、それらの3つの位置を頂点とする1つの3角形の領域が1つのメッシュとされる。
 このようにして3次元空間が複数のメッシュに区切られると、ゲイン補正値を得ようとする所望の位置を注目位置として、その注目位置を内包するメッシュが特定される。
 また、特定されたメッシュを構成する3つの頂点位置を示す位置ベクトルの乗加算により注目位置を示す位置ベクトルを表したときの3つの各頂点位置を示す位置ベクトルに乗算される係数がVBAPにより求められる。
 そして、このようにして求められた3つの係数を2乗和が1になるように正規化したそれぞれが、注目位置を内包するメッシュの3つの各頂点位置のゲイン補正値のそれぞれに乗算され、係数が乗算されたゲイン補正値の和が注目位置のゲイン補正値として算出される。また、正規化は、和または3乗以上の和が1になるようにするなど、どのような方法で行われてもよい。
 なお、ゲイン補正値の補間方法はVBAPを利用した補間に限らず、他のどのような方法であってもよい。
 例えば3次元等ラウドネス特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置の近傍にあるN個(例えばN=5)の位置など、複数個の位置のゲイン補正値の平均値を注目位置のゲイン補正値として用いてもよい。
 また、例えば3次元等ラウドネス特性テーブルにおいてゲイン補正値が存在する位置のうち、注目位置に最も近い、ゲイン補正値が用意(格納)されている位置のゲイン補正値を注目位置のゲイン補正値として用いるようにしてもよい。
 図1の説明に戻り、ゲイン補正部32は、3次元等ラウドネス特性テーブルから、メタデータに含まれているオブジェクト位置情報により示される位置に対応付けられているゲイン補正値を読み出して、読み出したゲイン補正値を補正ゲイン情報として周波数スペクトル補正部34に供給する。
 なお、メタデータに含まれているゲイン情報に基づくゲイン補正は、時間周波数変換部31において行われるようにしてもよいし、周波数スペクトル補正部34において行われるようにしてもよい。
 例えば周波数スペクトル補正部34においてゲイン情報に基づくゲイン補正が行われる場合、ゲイン補正部32は、ゲイン情報と、3次元等ラウドネス特性テーブルから読み出した、オブジェクト位置情報により定まるゲイン補正値とに基づいて補正ゲイン情報を生成する。
 この場合、補正ゲイン情報に基づくゲイン補正を行うことにより、ユーザにより指定されたゲイン情報に基づくゲイン補正と、3次元等ラウドネス特性を考慮したゲイン補正値に基づくゲイン補正とが同時に行われることになる。換言すれば、ゲイン情報により示されるゲインがゲイン補正値により補正される。以下では、ゲイン情報に基づくゲイン補正が周波数スペクトル補正部34において行われるものとして説明を続ける。
 周波数スペクトル補正部34は、ゲイン補正部32から供給された補正ゲイン情報に基づいて、時間周波数変換部31から供給された周波数スペクトルに対するゲイン補正を行い、その結果得られた補正周波数スペクトルをマスキング情報計算部35およびGUI生成部36に供給する。
 周波数スペクトル補正部34において得られるオブジェクトの補正周波数スペクトルは、コンテンツを構成するオブジェクトの音の周波数特性を示す情報である。特に、ここでは、補正周波数スペクトルは3次元等ラウドネス特性を考慮した周波数特性となっている。
 マスキング情報計算部35は、周波数スペクトル補正部34から供給された各オブジェクトの補正周波数スペクトルに基づいて、オブジェクトごとに、オブジェクト内での各周波数における聴覚マスキング量、すなわちマスキング閾値(周波数マスキング閾値)をオブジェクト内マスキング閾値として計算により求める。マスキング閾値とは、マスキングによって聞こえなくなる音圧の境界の閾値であり、その閾値よりも小さな音は聴感上知覚されなくなる。
 オブジェクト内マスキング閾値は、1つのオブジェクトの音に関するマスキング周波数特性、すなわち周波数成分間のマスキングの特性を示す情報である。以下、各周波数におけるオブジェクト内マスキング閾値により示されるマスキング周波数特性を、オブジェクト内マスキング周波数特性とも称することとする。
 例えば1つのオブジェクトの音は複数の周波数成分からなり、各周波数成分の音は、他の周波数成分の音をマスクする。すなわち、3次元空間上に1つのオブジェクト以外に音源がない場合であっても、オブジェクトの大きい周波数成分の音によって、その周波数成分の近傍の他の小さい周波数分の音はマスクされてしまう。
 なお、オブジェクト内マスキング閾値の計算方法等については、例えば「Marina Bosi and Richard E. Goldberg “Introduction to Digital Audio Coding and Standards”Kluwer Academic Publishers, 2002.」などに詳細に記載されている。
 また、以下においては、周波数マスキングを単にマスキングと説明するが、周波数マスキングの代わりに継時マスキングを用いてもよいし、周波数マスキングと継時マスキングの両方を用いることもできる。すなわち、周波数マスキングと継時マスキングの少なくとも何れか一方を考慮したマスキング閾値に関する特性を表示部23にグラフ表示することができる。
 周波数マスキングとは、複数の周波数の音が同時に再生されたとき、ある周波数の音が別の周波数の音をマスクして聞こえにくくする現象である。
 継時マスキングとは、ある音が再生されたとき、時間的にその前後に再生された音をマスクして聞こえにくくする現象である。
 また、マスキング情報計算部35は、各オブジェクトの補正周波数スペクトルと、入力部21から供給された各オブジェクトのメタデータに含まれるオブジェクト位置情報とに基づいて、2つのオブジェクトの組み合わせごとに、オブジェクト間マスキング閾値を計算により求める。
 オブジェクト間マスキング閾値は、オブジェクト間の各周波数における聴覚マスキング量、すなわちマスキング閾値(空間マスキング閾値)である。
 換言すれば、オブジェクト間マスキング閾値は、オブジェクト間の音に関するマスキング周波数特性を示す情報である。以下、各周波数におけるオブジェクト間マスキング閾値により示されるマスキング周波数特性を、オブジェクト間マスキング周波数特性とも称することとする。
 例えば、オブジェクト間マスキング閾値は、主観評価実験により求めたテーブルを用いることで求めることができる。
 なお、オブジェクト間マスキング閾値は、主観評価実験により求めたテーブルを用いる方法に限らず、他のどのような方法で求められてもよい。
 例えば、主観評価実験の結果を用いて空間マスキングモデルを構築し、その空間マスキングモデルに基づいてオブジェクト間マスキング閾値を求めるようにしてもよい。
 さらにマスキング情報計算部35は、各オブジェクトについて、周波数ごとに他のオブジェクトとの間のオブジェクト間マスキング閾値の合成値を計算により求め、得られた合成値をマスキング合成値(空間マスキング閾値)とする。
 オブジェクト間マスキング閾値の合成値は、例えば複数のオブジェクト間マスキング閾値の加算値(合計値)とされてもよいし、複数のオブジェクト間マスキング閾値を所定の重みにより重み付き加算することで得られる値とされてもよい。
 このとき、重み付き加算に用いられる重みは、3次元空間における基準となる聴取位置とオブジェクトとの間の位置関係や距離などに基づき定められるものであってもよいし、オブジェクトの種別等に対して予め定められたものであってもよい。また、周波数ごとに重みが定められてもよく、特に周波数ごとに定められた全オブジェクトで共通の重みが用いられるようにしてもよい。また、前述した以外の要素に基づいて重みが定められてもよい。
 マスキング合成値は、オブジェクトの3次元空間上にある他の全てのオブジェクトからの音に関する周波数ごとの聴覚マスキング量、すなわちマスキング閾値(空間マスキング閾値)である。なお、他の全てのオブジェクトではなく、オブジェクトの3次元空間上にある他の一部(2以上)のオブジェクトからの音に関する周波数ごとの聴覚マスキング量をマスキング合成値として求めてもよい。また、マスキング合成値は、複数の他のオブジェクトとの間のオブジェクト間マスキング閾値と、オブジェクト内マスキング閾値との周波数ごとの合成値であってもよい。以下、各周波数におけるマスキング合成値により示されるマスキング周波数特性を、合成マスキング周波数特性とも称することとする。
 マスキング情報計算部35は、少なくとも1つのオブジェクトについて、オブジェクト内マスキング閾値(オブジェクト内マスキング周波数特性)、オブジェクト間マスキング閾値(オブジェクト間マスキング周波数特性)、およびマスキング合成値(合成マスキング周波数特性)を求め、GUI生成部36に供給する。
 GUI生成部36は、周波数スペクトル補正部34から供給された補正周波数スペクトルと、マスキング情報計算部35から供給されたオブジェクト内マスキング閾値、オブジェクト間マスキング閾値、およびマスキング合成値とに基づいて周波数特性表示画面を表示させるための画像データを生成し、表示部23に供給する。GUI生成部36は、画像データに基づき表示部23に周波数特性表示画面等を表示させる表示制御部として機能する。
 周波数特性表示画面では、少なくとも1つのオブジェクトについて、そのオブジェクトについての3次元等ラウドネス特性を考慮した周波数特性、オブジェクト内マスキング周波数特性、オブジェクト間マスキング周波数特性、および合成マスキング周波数特性がグラフ表示される。
 すなわち、GUI生成部36は、画像データを表示部23に供給することで、表示部23にオブジェクトについての3次元等ラウドネス特性を考慮した周波数特性、オブジェクト内マスキング周波数特性、オブジェクト間マスキング周波数特性、および合成マスキング周波数特性をGUIのグラフで表示させる。
 なお、ユーザは、入力部21を操作することで、どのオブジェクトについてオブジェクト内マスキング周波数特性等を表示させるかを指定することが可能である。
 以下では、説明を簡単にするため、周波数特性表示画面には、1つのオブジェクトについてオブジェクト内マスキング周波数特性等が表示されるものとする。
 また、以下、周波数特性表示画面にオブジェクト内マスキング周波数特性等を表示させるオブジェクトを、特に注目オブジェクトとも称することとする。さらに、注目オブジェクトについて、オブジェクト間マスキング周波数特性を表示させるときの注目オブジェクトとは異なる他のオブジェクトを指定別オブジェクトとも称することとする。これらの注目オブジェクトと指定別オブジェクトはユーザにより指定可能である。
 その他、ユーザが周波数特性表示画面上に、オブジェクトの周波数特性、オブジェクト内マスキング周波数特性、オブジェクト間マスキング周波数特性、および合成マスキング周波数特性のうちの何れのものをグラフ表示させるかを指定(選択)できるようにしてもよい。このとき、オブジェクトの周波数特性やオブジェクト内マスキング周波数特性などのうちの任意の1以上のものを指定できるようにしてもよい。
 表示部23は、例えばディスプレイからなり、GUI生成部36から供給された画像データに基づいて、周波数特性表示画面等の各種の画像(画面)を表示する。
 以上のような情報処理装置11では、ユーザが指定別オブジェクトを変更したり、オブジェクトを追加したり、オブジェクトのオブジェクト位置情報やゲイン情報を変更したりすると、それらの変更や追加に応じて周波数特性表示画面が更新される。
 表示部23には、例えば図3に示す周波数特性表示画面が表示される。
 図3において横軸は周波数を示しており、縦軸は振幅(レベル)を示している。曲線L11は注目オブジェクトのオブジェクト内マスキング周波数特性(オブジェクト内マスキング閾値)を示しており、曲線L12は注目オブジェクトと指定別オブジェクトとの間のオブジェクト間マスキング周波数特性(オブジェクト間マスキング閾値)を示している。
 曲線L13は、注目オブジェクトについての合成マスキング周波数特性(マスキング合成値)を示しており、曲線L14は、3次元等ラウドネス特性を考慮した注目オブジェクトの周波数特性(補正周波数スペクトル)を示している。
 例えば注目オブジェクトと、3次元空間上に配置された注目オブジェクト以外の他の全てのオブジェクトとの関係に注目すると、曲線L14に示す補正周波数スペクトルが、曲線L13に示すマスキング合成値より小さくなると、注目オブジェクトの音は、他のオブジェクトの音にマスクされて聞こえなくなる。
 また、注目オブジェクトと指定別オブジェクトに注目すると、曲線L14に示す補正周波数スペクトルが、曲線L12に示すオブジェクト間マスキング閾値より小さくなると、注目オブジェクトの音は、指定別オブジェクトの音にマスクされて聞こえなくなる。
 ユーザは、曲線L11乃至曲線L14に示される各周波数特性を確認しながら、入力部21を操作し、各オブジェクトのオブジェクト位置情報やゲイン情報を指定(調整)する。
 周波数特性表示画面では曲線L14に示す注目オブジェクトの周波数特性や、曲線L12に示すオブジェクト間マスキング周波数特性、曲線L13に示す合成マスキング周波数特性がグラフ表示されている。
 複数の各オブジェクトの周波数特性のみをグラフ表示しても、ユーザがオブジェクト間の聴覚マスキングの効果を理解することは困難である。
 これに対して、図3に示す周波数特性表示画面では、注目オブジェクトの周波数特性だけでなく、オブジェクト間マスキング周波数特性や合成マスキング周波数特性もグラフ表示されている。そのため、ユーザは各オブジェクトのオブジェクト位置情報やゲイン情報に応じたオブジェクト間の聴覚マスキングの効果を視覚的に理解することができる。
 これにより、オブジェクト位置情報とゲイン情報の調整を繰り返す工程で必要となる試聴確認の回数を減らすことができ、より短い時間で3Dオーディオコンテンツを制作することができるようになる。
 なお、周波数特性表示画面において、注目オブジェクトの周波数特性(補正周波数スペクトル)だけでなく、指定別オブジェクトなど、他のオブジェクトの周波数特性(補正周波数スペクトル)も表示されるようにしてもよい。
 また、ユーザがマスキング合成値(合成マスキング周波数特性)の計算に用いるオブジェクトを指定(選択)できるようにしてもよい。そのような場合、例えばユーザによって、3次元空間上における注目オブジェクトの周囲にある1または複数のオブジェクトが選択され、それらの選択されたオブジェクトのオブジェクト間マスキング閾値の合成値がマスキング合成値として求められる。
〈GUI表示処理の説明〉
 次に、情報処理装置11の動作について説明する。すなわち、以下、図4のフローチャートを参照して、情報処理装置11により行われるGUI表示処理について説明する。
 ステップS11において入力部21は、ユーザの指定操作に応じて、オブジェクト位置情報およびゲイン情報の入力を行う。
 すなわち、入力部21は、ユーザによる指定操作により指定されたオブジェクトのオブジェクト位置情報およびゲイン情報を示す信号を制御部22に供給する。このとき、ユーザは、必要に応じて入力部21を操作し、注目オブジェクトや指定別オブジェクトの指定も行い、入力部21はその指定に応じた信号も制御部22に供給する。
 ステップS12において時間周波数変換部31は、供給された各オブジェクトのオーディオ信号に対して時間周波数変換を行い、その結果得られた周波数スペクトルを周波数スペクトル補正部34に供給する。
 ステップS13において周波数スペクトル補正部34は、時間周波数変換部31から供給された周波数スペクトルに対するゲイン補正を行い、その結果得られた補正周波数スペクトルをマスキング情報計算部35およびGUI生成部36に供給する。
 例えばゲイン補正部32は、供給された各オブジェクトのメタデータに含まれるオブジェクト位置情報に基づいて、3D聴覚特性テーブル保持部33に保持されている3次元等ラウドネス特性テーブルから、オブジェクト位置情報により示される位置に対応付けられているゲイン補正値を読み出す。
 そしてゲイン補正部32は、読み出したゲイン補正値に基づいて、オブジェクトのメタデータに含まれるゲイン情報を補正することで補正ゲイン情報を算出し、周波数スペクトル補正部34に供給する。
 周波数スペクトル補正部34は、ゲイン補正部32から供給された補正ゲイン情報に基づいて、時間周波数変換部31から供給された周波数スペクトルに対するゲイン補正を行うことで補正周波数スペクトルを生成する。
 ステップS14においてマスキング情報計算部35は、入力部21から供給された信号により示される注目オブジェクトについて、周波数スペクトル補正部34から供給された注目オブジェクトの補正周波数スペクトルに基づいて、オブジェクト内マスキング閾値を算出する。
 ステップS15においてマスキング情報計算部35は、各オブジェクトの補正周波数スペクトルと、入力部21から供給された各オブジェクトのオブジェクト位置情報とに基づいて、注目オブジェクトの他のオブジェクトとの間のオブジェクト間マスキング閾値を算出する。
 ステップS16においてマスキング情報計算部35は、ステップS15でオブジェクトごとに求めたオブジェクト間マスキング閾値の合成値を周波数ごとに求めることで、注目オブジェクトについてのマスキング合成値を算出する。
 マスキング情報計算部35は、以上のステップS14乃至ステップS16の処理で得られたオブジェクト内マスキング閾値、オブジェクト間マスキング閾値、およびマスキング合成値をGUI生成部36に供給する。
 ステップS17においてGUI生成部36は、入力部21から供給された信号により示される注目オブジェクトおよび指定別オブジェクトに応じた周波数特性表示画面の画像データを生成するとともに、生成した画像データを表示部23に供給し、周波数特性表示画面を表示させる。
 すなわち、GUI生成部36は、周波数スペクトル補正部34から供給された補正周波数スペクトルと、マスキング情報計算部35から供給されたオブジェクト内マスキング閾値、オブジェクト間マスキング閾値、およびマスキング合成値とに基づいて周波数特性表示画面の画像データを生成する。
 これにより、例えば図3に示した周波数特性表示画面の画像データが生成される。この周波数特性表示画面には、注目オブジェクトのオブジェクト内マスキング周波数特性、注目オブジェクトの指定別オブジェクトとの間のオブジェクト間マスキング周波数特性、注目オブジェクトについての合成マスキング周波数特性、および3次元等ラウドネス特性を考慮した注目オブジェクトの周波数特性がグラフ表示される。
 ステップS18において制御部22は、ミキシング、すなわちオブジェクト位置情報とゲイン情報を調整する処理を終了するか否かを判定する。
 ステップS18において、まだ処理を終了しないと判定された場合、その後、処理はステップS11に戻り、上述した処理が繰り返し行われる。
 この場合、例えばステップS11では、注目オブジェクトや指定別オブジェクトが変更されたり、任意のオブジェクトのオブジェクト位置情報やゲイン情報が変更(調整)されたりする。また、ステップS11では、新たなオブジェクトが追加され、そのオブジェクトのオブジェクト位置情報やゲイン情報が入力されることもある。
 そのため、その後のステップS13乃至ステップS16では、それらの変更や追加が反映された補正周波数スペクトル、オブジェクト内マスキング周波数特性、オブジェクト間マスキング周波数特性、合成マスキング周波数特性が求められる。
 そしてステップS17では、注目オブジェクトや指定別オブジェクト、オブジェクト位置情報、ゲイン情報の変更、新たなオブジェクトの追加などに応じて、周波数特性表示画面の表示が更新される。すなわち、変更や追加が反映された補正周波数スペクトルや、オブジェクト内マスキング周波数特性、オブジェクト間マスキング周波数特性、合成マスキング周波数特性が表示される。
 なお、ステップS11乃至ステップS17の処理が繰り返し行われる場合、ステップS12の処理は1度だけ行われればよい。
 また、ステップS18において処理を終了すると判定された場合、制御部22は、オブジェクトごとに指定されたオブジェクト位置情報およびゲイン情報からなる、各オブジェクトのメタデータを生成して図示せぬ記録部に記録させ、GUI表示処理は終了する。
 以上のようにして情報処理装置11は、オブジェクト間マスキング周波数特性や合成マスキング周波数特性がグラフ表示される周波数特性表示画面の画像データを生成し、周波数特性表示画面を表示する。
 このようにすることで、ユーザに対してオブジェクト間の聴覚マスキングの効果を視覚的に理解させることができる。その結果、オブジェクト位置情報とゲイン情報の調整を繰り返す工程で必要となる試聴確認の回数を減らすことができ、より短い時間で3Dオーディオコンテンツを制作することができる。
〈第1の実施の形態の変形例1〉
〈情報処理装置の他の構成例〉
 なお、図1に示した情報処理装置11では、各オブジェクトの3次元空間上の位置に応じた3次元等ラウドネス特性を考慮する例について説明した。しかし、3次元等ラウドネス特性は特に考慮されないようにしてもよい。
 そのような場合、情報処理装置11は、例えば図5に示すように構成される。なお、図5において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図5に示す情報処理装置11は、入力部21、制御部22、および表示部23を有している。また、制御部22は、時間周波数変換部31、マスキング情報計算部35、およびGUI生成部36を有している。
 図5に示す情報処理装置11の構成は、制御部22にゲイン補正部32、3D聴覚特性テーブル保持部33、および周波数スペクトル補正部34が設けられていない点で図1の情報処理装置11と異なり、その他の点については図1の情報処理装置11と同じ構成となっている。
 時間周波数変換部31は、供給された各オブジェクトのオーディオ信号に対して時間周波数変換を行い、その結果得られた周波数スペクトルをマスキング情報計算部35およびGUI生成部36に供給する。このとき時間周波数変換部31は、供給されたメタデータに含まれるゲイン情報に基づいて、オーディオ信号または周波数スペクトルに対するゲイン補正を行う。したがって、マスキング情報計算部35およびGUI生成部36には、ゲイン情報に基づくゲイン補正がなされた周波数スペクトルが供給される。
 マスキング情報計算部35は、時間周波数変換部31から供給された各オブジェクトの周波数スペクトルと、供給された各オブジェクトのオブジェクト位置情報とに基づいて、オブジェクト内マスキング閾値、オブジェクト間マスキング閾値、およびマスキング合成値を求め、GUI生成部36に供給する。
 GUI生成部36は、時間周波数変換部31から供給された周波数スペクトルと、マスキング情報計算部35から供給されたオブジェクト内マスキング閾値、オブジェクト間マスキング閾値、およびマスキング合成値とに基づいて周波数特性表示画面を表示させるための画像データを生成し、表示部23に供給する。
 この場合、周波数特性表示画面には、注目オブジェクトの周波数特性として、3次元等ラウドネス特性が考慮されていない周波数スペクトル、すなわち時間周波数変換部31で得られた周波数スペクトルが表示される。
〈第2の実施の形態〉
〈音響パラメータに基づく周波数特性の計算について〉
 ところで、聴覚マスキング(空間マスキング)の効果は、オブジェクトが配置される仮想的な3次元空間を形成する部屋等の反射や残響によって影響を受ける。
 例えば、マスクする音の反射音を仮想的な反射オブジェクトとみなせば、あるオブジェクトからの空間マスキング閾値は、そのオブジェクトの直接音によるマスキングと仮想的な反射オブジェクトからのマスキングとの合計と考えることができる。
 具体的には、例えば図6に示すように、壁WL11により囲まれる部屋(空間)内に、聴取者U11、オブジェクトOB11、およびオブジェクトOB12が配置されているとする。特に、聴取者U11を中心とする円上にオブジェクトOB11とオブジェクトOB12が配置されているとする。
 また、聴取者U11の正面にあるオブジェクトOB11が注目オブジェクトとされ、オブジェクトOB12が指定別オブジェクトとされているとする。すなわち、オブジェクトOB11からの音がマスクされる音であり、オブジェクトOB12からの音が、オブジェクトOB11からの音をマスクする音であるとする。
 この例では聴取者U11は、オブジェクトOB12から発せられた音として、オブジェクトOB12から直接、聴取者U11へと到達する直接音と、オブジェクトOB12から発せられ、壁WL11における位置P11で反射して聴取者U11へと到達する反射音とを聴取することになる。
 したがって、注目オブジェクトであるオブジェクトOB11のオブジェクトOB12との間のオブジェクト間マスキング閾値は、オブジェクトOB12の直接音との間のオブジェクト間マスキング閾値と、オブジェクトOB12の反射音との間のオブジェクト間マスキング閾値との合計値となる。
 このようなオブジェクトOB11のオブジェクト間マスキング閾値を求めるには、オブジェクトOB11やオブジェクトOB12が配置された円と、オブジェクトOB12からの反射音の経路との交点の位置に反射オブジェクトOB13を配置すればよい。
 この反射オブジェクトOB13は、オブジェクトOB12からの反射音に対応する仮想的なオブジェクトである。反射オブジェクトOB13の位置は、例えばオブジェクトOB12のオブジェクト位置情報と、壁WL11の位置等とから鏡像法などにより求めることができる。
 このような場合、オブジェクトOB11とオブジェクトOB12(直接音)との間のオブジェクト間マスキング閾値、およびオブジェクトOB11と反射オブジェクトOB13(反射音)との間のオブジェクト間マスキング閾値の合計値が、最終的なオブジェクトOB11のオブジェクトOB12との間のオブジェクト間マスキング閾値として求められる。
 なお、直接音のオブジェクト間マスキング閾値と、反射音のオブジェクト間マスキング閾値とを重み付き加算等により合成し、その結果得られた合成値を最終的なオブジェクト間マスキング閾値としてもよい。ここで、反射音は大きく初期反射音と後部残響音に分けることができるため、合成の過程で、初期反射音と後部残響音とでそれぞれ異なる重み付けを行ってもよい。また、直接音が聞こえてから残響音が鳴り始めるまでの時間(プリディレイ)が考慮されるようにしてもよい。さらに、オブジェクト毎の指向性が考慮されてもよい。
 直接音だけでなく反射音についても考慮することで、オブジェクトが配置された3次元空間の音響特性を考慮したオブジェクト間マスキング閾値を得ることができる。
 すなわち、オブジェクトが配置される3次元空間としての部屋等で、オブジェクトの音を聴いたときのオブジェクト間マスキング閾値やマスキング合成値を表示部23にグラフ表示させることができる。
 なお、反射音(反射オブジェクト)の位置(オブジェクト位置情報)やゲイン(ゲイン情報)、周波数特性(周波数スペクトル)は、直接音のオーディオ信号およびオブジェクト位置情報と、音響パラメータとを用いた音響シミュレーションにより求めることができる。
 ここで、音響パラメータとは、例えばオブジェクトが配置される3次元空間としての部屋等のサイズ(大きさ)や壁の反射率、壁の配置位置(部屋の形状)などといった、オブジェクトが配置される3次元空間の音響特性に関するパラメータである。
 また、音響シミュレーションとして、例えば鏡像法などの幾何音響シミュレーションを行うようにすることができる。このようにすることで、対象とする部屋でオブジェクトの音を聴いたときに近い空間マスキング閾値を表示することができる。
 音響シミュレーションに用いる音響パラメータの設定方法として、例えば以下に示す3つの設定方法ST1乃至設定方法ST3のなかの任意のものをユーザが選択できるようにしてもよい。
 設定方法ST1: プリセットとして用意した音響パラメータのなかからユーザが選択
 設定方法ST2: ユーザが音響パラメータを入力
 設定方法ST3: ユーザが選択した実測データから音響パラメータを計算
 例えば設定方法ST1では、互いに音響特性の異なる複数の部屋など、複数の空間ごとの音響パラメータが予めプリセットとして用意される。そして、ユーザは、それらのプリセットされた複数の音響パラメータのなかから所望の1つの音響パラメータを選択する。設定方法ST1の一例として、著名なミキシングエンジニアが過去に設定したプリセット(音響パラメータ)をユーザが選択できるようにしてもよい。このようにすることで、初心者やミキシング経験の浅いクリエイタがコンテンツを制作する際の障壁を軽減することができる。
 設定方法ST2では、ユーザが入力部21を操作することで、直接、部屋(空間)のサイズや壁の反射率などといった空間の音響特性に関するパラメータを音響パラメータとして入力する。そして、ユーザにより入力された音響パラメータが用いられて音響シミュレーションが行われる。
 設定方法ST3では、オブジェクトが配置される3次元空間に対応する実在(実際)の部屋等の空間において、予めマイクロホン等によりインパルス応答などの音響特性に関する測定が行われ、その測定結果が実測データのファイルとして用意される。
 そして、ユーザが、互いに音響特性の異なる複数の空間ごとに用意された実測データのファイルのなかから所望の1つの実測データを選択すると、選択された実測データに基づき音響パラメータが算出され、その音響パラメータが用いられて音響シミュレーションが行われる。設定方法ST3の一例として、著名なアーティストが使用するスタジオの実測データが格納されており、その実測データを選択することで、当該アーティストと同様のミキシング環境を再現できるようにしてもよい。
〈情報処理装置の構成例〉
 空間内での音の反射も考慮されて周波数特性表示画面が表示される場合、情報処理装置11は、例えば図7に示すように構成される。なお、図7において図5における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7に示す情報処理装置11は、入力部21、制御部22、および表示部23を有している。また、制御部22は、時間周波数変換部31、反射オブジェクト計算部61、マスキング情報計算部35、およびGUI生成部36を有している。
 図7に示す情報処理装置11の構成は、図5に示した情報処理装置11に新たに反射オブジェクト計算部61が設けられた構成となっている。
 反射オブジェクト計算部61は、入力部21から供給される信号に基づいて、音響パラメータの設定を行う。
 また、反射オブジェクト計算部61は、供給された各オブジェクトのメタデータ、時間周波数変換部31から供給された各オブジェクトの周波数スペクトル、および音響パラメータに基づいて音響シミュレーションを行う。
 反射オブジェクト計算部61は、音響シミュレーションにより得られた反射オブジェクトのオブジェクト位置情報および周波数スペクトルをマスキング情報計算部35に供給する。
 マスキング情報計算部35は、時間周波数変換部31から供給された各オブジェクトの周波数スペクトルと、供給された各オブジェクトのオブジェクト位置情報と、反射オブジェクト計算部61から供給された反射オブジェクトのオブジェクト位置情報および周波数スペクトルとに基づいて、オブジェクト内マスキング閾値、オブジェクト間マスキング閾値、およびマスキング合成値を求め、GUI生成部36に供給する。
 なお、図7に示した情報処理装置11においても3次元等ラウドネス特性テーブルに基づくゲイン補正が行われるようにしてもよい。
〈GUI表示処理の説明〉
 次に、図7に示した構成の情報処理装置11により行われるGUI表示処理について説明する。すなわち、以下、図8のフローチャートを参照して、空間内での音の反射が考慮される場合に情報処理装置11により行われるGUI表示処理について説明する。
 ステップS51において反射オブジェクト計算部61は、入力部21から供給されるユーザの操作に応じた信号に基づいて、音響パラメータの設定を行う。
 例えばユーザが上述の設定方法ST1を選択し、プリセットされた複数の音響パラメータのなかから1つの音響パラメータを選択した場合、反射オブジェクト計算部61は、ユーザにより選択された音響パラメータを音響シミュレーションに用いるものとして設定する。
 また、例えばユーザが上述の設定方法ST2を選択し、ユーザにより音響パラメータが入力された場合、反射オブジェクト計算部61は、ユーザにより入力された音響パラメータを、音響シミュレーションに用いるものとして設定する。
 さらに、例えばユーザが上述の設定方法ST3を選択し、予め用意された複数の実測データのなかから1つの実測データを選択した場合、反射オブジェクト計算部61は、ユーザにより選択された実測データに基づいて音響パラメータを算出する。そして反射オブジェクト計算部61は、算出した音響パラメータを、音響シミュレーションに用いるものとして設定する。
 音響パラメータの設定が行われると、その後、ステップS52およびステップS53の処理が行われて、各オブジェクトの直接音についての周波数スペクトルが生成される。なお、これらの処理は図4のステップS11およびステップS12の処理と同様であるので、その説明は省略する。
 但し、ステップS53では、時間周波数変換部31は、時間周波数変換の前または後において、適宜、供給されたメタデータに含まれるゲイン情報に基づいて、オーディオ信号または周波数スペクトルに対するゲイン補正を行う。
 時間周波数変換部31は、時間周波数変換およびゲイン補正により得られた各オブジェクトの直接音の周波数スペクトルを反射オブジェクト計算部61、マスキング情報計算部35、およびGUI生成部36に供給する。
 ステップS54において反射オブジェクト計算部61は、供給された各オブジェクトのメタデータ、時間周波数変換部31から供給された各オブジェクトの周波数スペクトル、および音響パラメータに基づいて、反射オブジェクト(反射音)の周波数スペクトルおよびオブジェクト位置情報を生成する。
 反射オブジェクト計算部61は、オブジェクトの直接音のメタデータ、すなわちオブジェクト位置情報およびゲイン情報と、オブジェクトの直接音の周波数スペクトルと、ステップS51で設定した音響パラメータとに基づいて音響シミュレーションを行うことで、反射オブジェクトのオブジェクト位置情報および周波数スペクトルを求める。
 例えば反射オブジェクトのオブジェクト位置情報は、図6を参照して説明したように、反射音の音源となるオブジェクトのオブジェクト位置情報と、3次元空間の形状やサイズ、すなわち壁の配置位置や向きとによって定まるものである。
 なお、音響シミュレーションにより反射オブジェクトのゲイン情報が求められ、そのゲイン情報と、直接音の周波数スペクトルまたはオーディオ信号とから反射オブジェクトの周波数スペクトルが求められるようにしてもよい。
 この場合、反射オブジェクトのゲイン情報は、反射音の音源となるオブジェクトのゲイン情報やオブジェクト位置情報、反射オブジェクトのオブジェクト位置情報、3次元空間の形状やサイズ、3次元空間を形成する部屋の壁の反射率、オブジェクトごとの指向性などによって定まる。
 また、3次元空間としての部屋の形状等に応じて、1つのオブジェクトに対して、複数の反射オブジェクトが生成されるようにしてもよい。
 反射オブジェクトの周波数スペクトルおよびオブジェクト位置情報が生成されると、その後、ステップS55乃至ステップS59の処理が行われてGUI表示処理は終了するが、これらの処理は図4のステップS14乃至ステップS18の処理と同様であるので、その説明は省略する。
 但し、ステップS55では、マスキング情報計算部35は、時間周波数変換部31から供給された各オブジェクトの直接音の周波数スペクトルに基づいて、オブジェクト内マスキング閾値を算出する。
 また、ステップS56では、マスキング情報計算部35は、時間周波数変換部31から供給された周波数スペクトルと、供給された各オブジェクトのメタデータと、反射オブジェクト計算部61から供給された反射オブジェクトの周波数スペクトルおよびオブジェクト位置情報とに基づいてオブジェクト間マスキング閾値を算出する。
 このとき、図4のステップS15における場合と同様の処理が行われて、直接音と反射音についてオブジェクト間マスキング閾値が算出され、それらのオブジェクト間マスキング閾値の合計値が、最終的なオブジェクト間マスキング閾値とされる。
 すなわち、注目オブジェクトと、直接音である指定別オブジェクトとの間のオブジェクト間マスキング閾値が算出される。また、注目オブジェクトと、反射音である、指定別オブジェクトに対応する反射オブジェクトとの間のオブジェクト間マスキング閾値も算出される。そして、それらの指定別オブジェクトとの間のオブジェクト間マスキング閾値と、1または複数の各反射オブジェクトとの間のオブジェクト間マスキング閾値との合計値が求められ、得られた合計値が注目オブジェクトの指定別オブジェクトとの間の最終的なオブジェクト間マスキング閾値とされる。
 したがって、マスキング情報計算部35では、注目オブジェクトや他のオブジェクトが配置される3次元空間の音響特性を示す音響パラメータに基づく、オブジェクト間マスキング閾値が算出(計算)されるということができる。換言すれば、マスキング情報計算部35では、音響パラメータに基づいてオブジェクト間マスキング閾値が算出される。
 その結果、ステップS58では、反射音も考慮された、すなわち3次元空間としての部屋等の音響特性も考慮されたオブジェクト間マスキング周波数特性や合成マスキング周波数特性が周波数特性表示画面上に表示されることになる。
 以上のようにして情報処理装置11は、反射オブジェクトについても周波数スペクトルを生成し、3次元空間としての部屋等の音響特性が考慮されたオブジェクト間マスキング周波数特性等がグラフ表示される周波数特性表示画面を表示する。
 このようにすることで、ユーザに対して、部屋等の音響特性を考慮した、より正確なオブジェクト間の聴覚マスキングの効果を視覚的に理解させることができる。その結果、オブジェクト位置情報とゲイン情報の調整を繰り返す工程で必要となる試聴確認の回数を減らすことができ、より短い時間で3Dオーディオコンテンツを制作することができる。
〈第3の実施の形態〉
〈上限値の設定について〉
 ところで、コンテンツを構成するオブジェクトのなかには、他のオブジェクトからマスクされたくない重要なオブジェクトがある。また、1つのオブジェクトであっても、オブジェクトのオーディオ信号に含まれる複数の周波数成分のなかに、他のオブジェクトからマスクされたくない重要な周波数成分もある。
 そこで、他のオブジェクトからマスクされたくないオブジェクトや周波数に対して、許容されるマスキング合成値の上限値が設定されるようにしてもよい。
 なお、上限値は、1つのオブジェクトに対して全周波数で共通の値が設定されるようにしてもよいし、1つのオブジェクトに対して周波数ごとに設定されるようにしてもよい。また、ユーザにより選択された複数のオブジェクトに対して、全周波数で共通の上限値や周波数ごとの上限値が設定されるようにしてもよい。
 上限値の設定が行われる場合、注目オブジェクトについてマスキング合成値が、設定した許容量である上限値を超えた場合には、マスキング合成値が上限値を超えた旨のアラート表示がGUIで行われる。そうすることで、ユーザが3次元空間上においてオブジェクトの位置を移動させるときなどに、聴覚マスキング(空間マスキング)の影響を視覚的に理解しやすく提示することができる。
 図9にアラート表示の一例を示す。なお、図9において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9では、図3における場合と同様の周波数特性表示画面において、低域側の周波数帯域で曲線L13に示すマスキング合成値(合成マスキング周波数特性)が設定した上限値を超えてしまっている。
 そのため、この例では、上限値を超えた周波数帯域についてアラートAL11が表示されている。このアラートAL11は周波数帯域に対して設定された上限値を示す直線となっている。アラートAL11の部分では、そのアラートAL11である直線より上側に曲線L13に示すマスキング合成値が位置しており、ユーザは、どの周波数帯域において、どれだけマスキング合成値が上限値よりも大きいかを視覚的に理解することができる。
 なお、マスキング合成値が上限値を超えた場合のアラート表示は、図9の例に限らず、どのようなものであってもよい。また、アラート表示ではなく、音声や振動などの手段でユーザにアラートを通知してもよいし、アラート表示と音声や振動などの手段のうちの任意のものを組み合わせてユーザに対する通知を行ってもよい。
 また、ユーザによる上限値の設定方法は、上限値を直接入力する方法やGUIで設定する方法など、どのような方法であってもよい。
 具体的には、例えばユーザが入力部21を操作することで表示部23に表示されたGUI、すなわち設定画面上で上限値を表すバーなどを動かすなどして、グラフィカルEQ(Equalizer)のように上限値の設定を行うことができるようにしてもよい。
 また、情報処理装置11がオブジェクトのオーディオ信号に基づき楽曲解析等を行い、その結果として得られたコンテンツのジャンルやメロディなどの解析結果に基づいて、ユーザの操作等によらずに自動で上限値を設定するようにしてもよい。
 例えば、Vocal(ボーカル)のオブジェクトについて、解析結果に基づきVocalの重要な周波数帯域が自動的に判別され、その判別結果に基づき上限値が設定されるようにすることができる。同様に、Guitar(ギター)のオブジェクトについて、解析結果に基づきGuitarの重要な周波数帯域が自動的に判別され、その判別結果に基づき上限値が設定されるようにすることができる。
〈情報処理装置の構成例〉
 情報処理装置11がマスキング合成値の上限値の設定を行う場合、情報処理装置11は、例えば図10に示すように構成される。なお、図10において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図10に示す情報処理装置11の構成は、制御部22に新たに上限値設定部91が設けられた点で図1に示した構成と異なっており、その他の点では図1に示した例と同じ構成となっている。
 上限値設定部91は、オブジェクトに対してマスキング合成値の上限値を設定し、その設定結果をGUI生成部36に供給する。
〈GUI表示処理の説明〉
 続いて、図11のフローチャートを参照して、図10に示した情報処理装置11により行われるGUI表示処理について説明する。
 ステップS101において上限値設定部91は、オブジェクトに対してマスキング合成値の上限値を設定し、その設定結果をGUI生成部36に供給する。
 例えば上限値設定部91は、ユーザが入力部21を操作することで上限値の設定操作を行った場合、その設定操作に応じて入力部21から供給される信号に基づいて、オブジェクトごとや周波数ごとに上限値を設定する。
 また、例えば上限値設定部91は、供給された全オブジェクトのオーディオ信号を加算して得られるコンテンツのオーディオ信号に対して楽曲解析を行い、その解析結果に基づいてオブジェクトごとや周波数ごとに上限値を設定する。
 上限値の設定が行われると、その後、ステップS102乃至ステップS109の処理が行われてGUI表示処理は終了するが、これらの処理は図4のステップS11乃至ステップS18の処理と同様であるので、その説明は省略する。
 但し、ステップS108では、GUI生成部36は、ステップS101で上限値設定部91から供給された上限値に基づいて、注目オブジェクトについて求めたマスキング合成値が上限値を超えたか否かを判定し、その判定結果に応じた周波数特性表示画面を生成する。
 具体的には、GUI生成部36は、上限値を超えたマスキング合成値がないと判定された場合、例えば図3に示したようにアラート表示のない周波数特性表示画面を表示させる画像データを生成し、表示部23に供給する。
 これに対して、GUI生成部36は、上限値を超えたマスキング合成値があると判定された場合、例えば図9に示したようにアラート表示のある周波数特性表示画面を表示させる画像データを生成し、表示部23に供給する。
 以上のようにして情報処理装置11は、上限値を超えたマスキング合成値の有無に応じた周波数特性表示画面の画像データを生成し、周波数特性表示画面を表示する。
 このようにすることで、ユーザに対してオブジェクト間の聴覚マスキングの効果を、さらに容易に、視覚的に理解させることができる。その結果、オブジェクト位置情報とゲイン情報の調整を繰り返す工程で必要となる試聴確認の回数を減らすことができ、より短い時間で3Dオーディオコンテンツを制作することができる。
〈第4の実施の形態〉
〈オブジェクトの移動先の候補の表示について〉
 例えばマスキング合成値が、設定した許容量である上限値を超えてしまうオブジェクトがある場合、3次元空間上における、そのオブジェクトの位置や他のオブジェクトの位置を変更することで、マスキング合成値が上限値を超えないようにできることもある。
 そこで、マスキング合成値が上限値を超えたオブジェクトがある場合に、マスキング合成値が上限値を超えないような、そのオブジェクトの位置の候補(変更先の位置の候補)や、他のオブジェクトの位置の候補を解析等により求め、求めた候補をGUIで表示するようにしてもよい。位置の候補を提示する際には、マスキング合成値が上限値を超えないような場所であることに加えて、当該オブジェクトの種別やコンテンツの種別に応じて、ユーザに聴感上違和感がないような配置を選別して表示してもよい。
 さらに、例えばステムデータのような複数のグルーピングされたオブジェクトについては、それらの複数のオブジェクトからなるグループ全体を移動させる候補先を同時にGUIで表示してもよい。
 そのような場合、例えば各オブジェクトの左右対称な位置関係を維持したり、オブジェクト間の角度を維持したりしたままオブジェクトを並行移動させるなど、候補先にオブジェクト位置関係を考慮した制約が加えられるようにしてもよい。
 図12にオブジェクトの位置の移動先の候補の表示例を示す。
 例えば表示部23に図12の左側に示す画面が表示されていたとする。この例では、表示画面には3次元空間が示されており、その3次元空間上にオブジェクトOBJ31を含む複数のオブジェクトが配置されている。特に、ここでは1つの球が1つのオブジェクトを表している。
 例えばオブジェクトOBJ31が注目オブジェクトとされており、図中、左側に示すオブジェクトOBJ31の配置位置では、マスキング合成値が上限値を超えてしまうとする。
 そのような場合、マスキング合成値が上限値を超えなくなるようなオブジェクトOBJ31の位置の候補、すなわちオブジェクトOBJ31の移動先の候補がマスキング情報計算部35により求められ、求められた候補の位置が表示される。
 これにより、表示部23の表示は、例えば図中、左側に示した表示から図中、右側に示す表示へと更新される。
 図中、右側に示す例では、オブジェクトOBJ31の移動先の候補として、位置P51乃至位置P53が表示されている。ユーザは、入力部21を操作することで、これらの3つの位置P51乃至位置P53のうちの何れかをオブジェクトOBJ31の移動先の位置として指定することができる。
 ユーザにより所定の候補が移動先の位置として指定されると、その後、オブジェクト位置情報により示される位置が、ユーザにより指定された位置となるように、オブジェクトOBJ31のオブジェクト位置情報が更新(変更)される。
 なお、ここではオブジェクトの移動先の候補として3つの候補が表示される例について説明したが、表示される候補の数はいくつであってもよい。
〈GUI表示処理の説明〉
 オブジェクトの移動先の候補が表示される場合、図10に示した情報処理装置11は、図13に示すGUI表示処理を行う。以下、図13のフローチャートを参照して、情報処理装置11によるGUI表示処理について説明する。
 なお、ステップS141乃至ステップS148の処理は、図11のステップS101乃至ステップS108の処理と同様であるので、その説明は省略する。
 ステップS149においてGUI生成部36は、オブジェクト位置情報、すなわち3次元空間におけるオブジェクト位置の移動先の候補を表示させるか否かを判定する。
 例えばステップS149では、上限値を超えた注目オブジェクトのマスキング合成値がある場合に、オブジェクト位置の移動先の候補を表示させると判定される。
 その他、例えば上限値を超えた注目オブジェクトのマスキング合成値があり、かつユーザが入力部21を操作することで、オブジェクト位置の移動先の候補の表示を指示した場合に、オブジェクト位置の移動先の候補を表示させると判定されるようにしてもよい。
 ステップS149においてオブジェクト位置の移動先の候補を表示させないと判定された場合、ステップS150およびステップS151の処理はスキップされ、その後、処理はステップS152へと進む。
 これに対して、ステップS149においてオブジェクト位置の移動先の候補を表示させると判定された場合、その後、ステップS150の処理が行われる。
 ステップS150においてマスキング情報計算部35は、所定のオブジェクトのオブジェクト位置情報を変化させながら、注目オブジェクトについてのマスキング合成値を算出することで、オブジェクト位置の移動先の候補を求める。
 具体的にはマスキング情報計算部35は、所定のオブジェクトのオブジェクト位置情報を変化させながら、各オブジェクトの補正周波数スペクトルやオブジェクト位置情報に基づいて図4のステップS15およびステップS16と同様の処理を行う。
 そしてマスキング情報計算部35は、上限値設定部91から供給された上限値に基づいて、マスキング合成値が上限値を超えなくなる所定のオブジェクトのオブジェクト位置を特定し、特定されたオブジェクト位置を、移動先の候補となるオブジェクト位置とする。
 このとき、オブジェクト位置情報を変化させる所定のオブジェクトは、注目オブジェクトであってもよいし、指定別オブジェクトや、注目オブジェクトからの距離が最も近い所定個数のオブジェクト、ユーザにより指定されたオブジェクトなどであってもよい。
 また、移動先の候補となるオブジェクト位置(以下、候補位置とも称する)は、1つであってもよいし、複数であってもよい。候補位置が1つだけとされる場合、例えばマスキング合成値が上限値を超えなくなるオブジェクト位置のうち、もともとステップS142の処理で指定されていたオブジェクト位置に最も近い位置が候補位置とされる。その他、複数のオブジェクトについて移動先の候補位置を求めるようにしてもよい。
 マスキング情報計算部35は、求めたオブジェクト位置の移動先の候補、すなわち候補位置を示すオブジェクト位置情報をGUI生成部36に供給する。
 ステップS151においてGUI生成部36は、マスキング情報計算部35から供給された候補位置、すなわちオブジェクト位置の移動先の候補を表示部23に表示させる。
 すなわち、GUI生成部36は、1または複数の候補位置を示すオブジェクト位置情報に基づいて、3次元空間上におけるそれらの候補位置を視覚的に提示する候補位置表示画面を表示するための画像データを生成する。
 例えば1つのオブジェクトについて複数の候補位置があるときには、候補位置表示画面では、3次元空間におけるオブジェクトについての複数の候補位置からなる領域が表示されるようにしてもよい。
 GUI生成部36は、生成した画像データを表示部23に供給することで、表示部23に候補位置表示画面を表示させる。これにより、例えば図12の右側に示した画面が表示される。この場合、どのオブジェクトの移動先の候補が提示されているかや、移動前後のオブジェクトの位置が容易に把握できるように表示が行われる。
 なお、候補位置表示画面は、周波数特性表示画面上に表示されるようにしてもよいし、周波数特性表示画面とは別画面として表示されるようにしてもよい。
 ステップS151の処理が行われ、候補位置表示画面が表示されたか、またはステップS149において候補を表示させないと判定された場合、その後、処理はステップS152へと進む。
 ステップS152において制御部22は、ミキシング、すなわちオブジェクト位置情報とゲイン情報を調整する処理を終了するか否かを判定する。
 ステップS152において、まだ処理を終了しないと判定された場合、その後、処理はステップS141に戻り、上述した処理が繰り返し行われる。
 この場合、特に上限値の変更がない場合にはステップS141の処理は行われない。また、例えばステップS142において、ユーザが入力部21を操作して候補位置表示画面上の候補位置を指定することで、オブジェクト位置情報の入力、すなわちオブジェクト位置情報の変更を指示することができるようにしてもよい。
 これに対して、ステップS152において処理を終了すると判定された場合、制御部22は、指定されたオブジェクト位置情報とゲイン情報からなる、各オブジェクトのメタデータを生成して図示せぬ記録部に記録させ、GUI表示処理は終了する。
 以上のようにして情報処理装置11は、適宜、オブジェクト位置の候補を求め、候補位置表示画面を表示させる。
 このようにすることで、ユーザは、上限値を超えなくなるようなオブジェクト位置を視覚的に理解することができる。したがって、オブジェクト位置情報とゲイン情報の調整を繰り返す工程で必要となる試聴確認の回数をさらに減らすことができ、さらに短い時間で3Dオーディオコンテンツを制作することができる。
〈第5の実施の形態〉
〈エンコーダの構成例〉
 また、本技術は、3Dオーディオエンコーダ(以下、単にエンコーダとも称する)にも適用可能である。
 例えば、上述した許容されるマスキング合成値の上限値が設定されるオブジェクトや周波数帯域は、他のオブジェクトからマスクされたくない重要なオブジェクトや周波数帯域であると考えられる。
 そこで、そのような許容される空間マスキングに関する設定情報をエンコーダのビットアロケーション時に利用するようにしてもよい。
 設定情報は、他のオブジェクトからマスクされたくない重要なオブジェクトや周波数のマスキング閾値に関する情報である。例えば設定情報には、許容マスキング閾値、すなわちマスキング合成値(マスキング閾値)の上限値が設定されているオブジェクトを示すオブジェクトIDや、上限値が設定されている周波数を示す情報、設定されている上限値(許容マスキング閾値)などを示す情報が含まれている。
 すなわち、例えば設定情報では、各オブジェクトについて、周波数ごとに許容マスキング閾値(許容されるマスキング合成値の上限値)が設定されている。
 このようにすることで、ミキシングエンジニアの重要視するオブジェクトや周波数に優先的にビットを割り当てて他のオブジェクトや周波数よりも音質比を高くし、コンテンツ全体の音質を改善したり符号化効率を改善したりすることができる。
 図14は、本技術を適用したエンコーダの構成例を示す図である。
 図14に示すエンコーダ201は、例えばエンコーダ(符号化装置)として機能するコンピュータ等の信号処理装置などからなる。
 例えば、エンコーダ201では、設定情報がオブジェクトのメタデータやコンフィグ情報などの形でコンテンツデータの一部に含められ、エンコード時にオーディオ信号やメタデータとともに入力される。
 エンコーダ201は、メタデータ符号化部211、オブジェクトオーディオ符号化部212、およびパッキング部213を有している。
 メタデータ符号化部211は、供給された複数の各オブジェクトのメタデータを、例えばMPEG(Moving Picture Experts Group)-H規格等に従って符号化し、その結果得られた符号化メタデータをパッキング部213に供給する。
 この例では、メタデータを構成する各パラメータとして水平角度(Azimuth)、垂直角度(Elevation)、距離(Radius)、ゲイン情報(Gain)、および他のパラメータ(Other parameters)がメタデータ符号化部211に入力される。
 特に、水平角度、垂直角度、および距離からなる情報がオブジェクト位置情報となっており、他のパラメータ(Other parameters)は音像を広げるスプレッド処理のためのパラメータや、オブジェクトの優先度などである。なお、メタデータとして入力されるパラメータは、前述の水平角度(Azimuth)、垂直角度(Elevation)、距離(Radius)のような極座標形式で表されるパラメータに限らず、例えばXYZ形式で表されるパラメータなどであってもよい。
 メタデータ符号化部211は、量子化部231および符号化部232を有しており、量子化部231に各オブジェクトのメタデータが入力される。
 量子化部231は、入力(供給)されたメタデータを量子化し、その結果得られた量子化パラメータを符号化部232に供給する。符号化部232は、量子化部231から供給された量子化パラメータを符号化し、その結果得られた符号化メタデータをパッキング部213に供給する。
 オブジェクトオーディオ符号化部212は、供給された各オブジェクトのオーディオ信号を、例えばMPEG-H規格等に従って符号化し、その結果得られた符号化オーディオ信号をパッキング部213に供給する。
 オブジェクトオーディオ符号化部212は、時間周波数変換部241、量子化部242、および符号化部243を有している。
 時間周波数変換部241は、供給された各オブジェクトのオーディオ信号に対してMDCTを用いた時間周波数変換を行い、その結果得られた、各オブジェクトの周波数スペクトル情報であるMDCT係数を量子化部242に供給する。
 量子化部242は、時間周波数変換部241から供給されたMDCT係数を量子化し、その結果得られた量子化された周波数スペクトル情報、すなわち量子化周波数スペクトル情報である量子化MDCT係数を符号化部243に供給する。
 量子化部242は、聴覚心理パラメータ計算部251およびビットアロケーション部252を有している。
 聴覚心理パラメータ計算部251は、供給された設定情報と、時間周波数変換部241から供給されたMDCT係数とに基づいて、人間の聴覚特性(聴覚マスキング)を考慮するための聴覚心理パラメータを計算し、ビットアロケーション部252に供給する。
 ビットアロケーション部252は、時間周波数変換部241から供給されたMDCT係数、および聴覚心理パラメータ計算部251から供給された聴覚心理パラメータに基づいて、ビットアロケーション処理を行う。
 ビットアロケーション処理では、各スケールファクターバンドの量子化ビットと量子化ノイズの計算および評価が行われる、聴覚心理モデルに基づいたビットアロケーションが行われる。そして、そのビットアロケーションの結果に基づきスケールファクターバンドごとにMDCT係数が量子化され、量子化MDCT係数が得られる(生成される)。
 ビットアロケーション部252は、このようにして得られた各オブジェクトのスケールファクターバンドごとの量子化MDCT係数を、各オブジェクトの量子化結果、より詳細には各オブジェクトのMDCT係数の量子化結果として符号化部243に供給する。
 ここで、スケールファクターバンドとは、人間の聴覚特性に基づいて所定帯域幅のサブバンド(ここではMDCTの分解能)を複数束ねて得られる帯域(周波数帯域)である。
 以上のようなビットアロケーション処理により、MDCT係数の量子化で発生してしまう量子化ノイズがマスクされて知覚されないスケールファクターバンドの量子化ビットの一部が、量子化ノイズが知覚されやすいスケールファクターバンドに割り当てられる(回される)。このとき、設定情報に応じて、重要なオブジェクトや周波数(スケールファクターバンド)に対して優先的にビットが割り当てられる。換言すれば、上限値が設定されているオブジェクトや周波数に対して、上限値に応じて適切にビットが割り当てられる。
 これにより、全体の音質の劣化、特にユーザ(ミキシングエンジニア)が重要であると考えるオブジェクトや周波数の音質の劣化を抑制し、効率的な量子化を行うことができる。すなわち、符号化効率を向上させることができる。
 特に、量子化MDCT係数の算出にあたっては、聴覚心理パラメータ計算部251において、設定情報に基づいて、各オブジェクトについて周波数ごとにマスキング閾値(聴覚心理パラメータ)が計算される。そして、ビットアロケーション部252におけるビットアロケーション処理時には、量子化ノイズがマスキング閾値を超えないように量子化ビットの割り当てが行われる。
 例えば聴覚心理パラメータの計算時には、設定情報により上限値が設定された周波数に対しては、許容される量子化ノイズが小さくなるようなパラメータ調整が行われ、聴覚心理パラメータが算出される。
 なお、設定情報により示される許容マスキング閾値、すなわち上限値に応じてパラメータ調整の調整量が変化するようにしてもよい。これにより、該当周波数に多くビットを割り当てるようにすることができる。
 符号化部243は、ビットアロケーション部252から供給された各オブジェクトのスケールファクターバンドごとの量子化MDCT係数を符号化し、その結果得られた符号化オーディオ信号をパッキング部213に供給する。
 パッキング部213は、符号化部232から供給された符号化メタデータと、符号化部243から供給された符号化オーディオ信号とをパッキングし、その結果得られた符号化ビットストリームを出力する。
〈符号化処理の説明〉
 続いて、エンコーダ201の動作について説明する。すなわち、以下、図15のフローチャートを参照して、エンコーダ201による符号化処理について説明する。
 ステップS241においてメタデータ符号化部211は、各オブジェクトのメタデータを符号化し、その結果得られた符号化メタデータをパッキング部213に供給する。
 すなわち、量子化部231は、供給された各オブジェクトのメタデータを量子化し、その結果得られた量子化パラメータを符号化部232に供給する。また、符号化部232は、量子化部231から供給された量子化パラメータを符号化し、その結果得られた符号化メタデータをパッキング部213に供給する。
 ステップS242において聴覚心理パラメータ計算部251は、設定情報を取得する。
 ステップS243において時間周波数変換部241は、供給された各オブジェクトのオーディオ信号に対してMDCTを用いた時間周波数変換を行い、スケールファクターバンドごとのMDCT係数を生成する。時間周波数変換部241は、生成したMDCT係数を聴覚心理パラメータ計算部251およびビットアロケーション部252に供給する。
 ステップS244において聴覚心理パラメータ計算部251は、ステップS242で取得した設定情報と、時間周波数変換部241から供給されたMDCT係数とに基づいて聴覚心理パラメータを計算し、ビットアロケーション部252に供給する。
 このとき聴覚心理パラメータ計算部251は、設定情報により示されるオブジェクトや周波数(スケールファクターバンド)については、許容される量子化ノイズが小さくなるように、設定情報により示される上限値に基づき聴覚心理パラメータを算出する。
 ステップS245においてビットアロケーション部252は、時間周波数変換部241から供給されたMDCT係数、および聴覚心理パラメータ計算部251から供給された聴覚心理パラメータに基づいて、ビットアロケーション処理を行う。
 ビットアロケーション部252は、ビットアロケーション処理により得られた量子化MDCT係数を符号化部243に供給する。
 ステップS246において符号化部243は、ビットアロケーション部252から供給された量子化MDCT係数を符号化し、その結果得られた符号化オーディオ信号をパッキング部213に供給する。
 例えば符号化部243では、量子化MDCT係数に対してコンテキストベースの算術符号化が行われ、符号化された量子化MDCT係数が符号化オーディオ信号としてパッキング部213に出力される。なお、符号化方式は算術符号化に限らず、ハフマン符号化方式やその他の符号化方式など、他のどのような符号化方式であってもよい。
 ステップS247においてパッキング部213は、符号化部232から供給された符号化メタデータと、符号化部243から供給された符号化オーディオ信号とをパッキングし、その結果得られた符号化ビットストリームを出力する。パッキングにより得られた符号化ビットストリームが出力されると、符号化処理は終了する。
 以上のようにしてエンコーダ201は、設定情報に基づき聴覚心理パラメータを計算し、ビットアロケーション処理を行う。このようにすることで、コンテンツ制作者、すなわちミキシングエンジニアが優先したいオブジェクトや周波数帯域の音に対するビット割り当てを増やすことができ、符号化効率を改善することができる。
〈第6の実施の形態〉
〈その他の適用例〉
 ところで、ヘッドホンやイヤホンで複数のマイクロホンを使用し、外部音の到来方向を特定することができる。
 さらにヘッドホンやイヤホンで音を再生するときに、頭部伝達関数(HRTF(Head Related Transfer Function))やEQ・パンニングなどの信号処理を再生音に施すことで再生音の音像位置を調整することができる。
 これらの外部音の到来方向の特定と、再生音の音像位置の調整とを組み合わせることで、外部音と再生音が同方向やマスキングが強くなる方向にあった場合に、音が聞こえ難くなるのに対して、再生音の音像位置をマスキングが弱くなる位置に移動させることで聞こえを良くすることができる。また、補聴器や収音器などの補聴機器を使用する場合でも、正面で話している人の声を補聴機器で増幅再生する際に、音像位置を調整することができる。
 このような場合、マスキングが弱くなって聞こえが良くなる位置には個人差があり、その効果を強めるためには個人ごとに調整が必要である。そこで、簡単にマスキング位置が弱くなる方向を調べて補聴機器を調整する機能が必要になる。
 例えば図16に示すように、3次元空間上の聴取位置LP11に対して、正面方向に外部音(ノイズ)のオブジェクトOBJ71が配置されており、右斜め前方に音声や危険音などの聞きたい音(目的音)のオブジェクトOBJ72が配置されているとする。
 すなわち、ユーザが装着する補聴機器において、聴取位置LP11にいるユーザ(聴取者)から見て、正面方向にあるオブジェクトOBJ71の方向で外部音(ノイズ)が再生されるとする。換言すれば、オブジェクトOBJ71の方向から外部音が到来するとする。
 また、ユーザが装着する補聴機器において、聴取位置LP11にいるユーザから見て、右斜め前方にあるオブジェクトOBJ72の方向で聞きたい音(目的音)が再生されるとする。
 このような場合に、例えばユーザが球(ボール)により表される、目的音に対応するオブジェクトOBJ72の配置位置を移動させることで、ユーザにとってオブジェクトOBJ72がどの位置にあるときに、最も目的音が聞こえやすいかを探すことができるアプリケーションプログラムがあるとよい。
 ここでは、例えばユーザがスマートホンやタブレット、パーソナルコンピュータなどで動作するアプリケーションプログラムによる再生位置調整画面上において、目的音に対応するオブジェクトOBJ72の配置位置を調整できるようにすることが考えられる。
 この場合、ユーザは、例えば再生位置調整画面を指で触ったり、マウス等を操作したりすることでオブジェクトOBJ72の配置位置の調整を行う。
 また、オブジェクトOBJ71やオブジェクトOBJ72に対応する外部音(非目的音)や目的音の到来方向は、HRTFなどを用いた信号処理により再現することができる。
 このように、外部音に対応するオブジェクトOBJ71を3次元空間上の様々な位置に配置した場合における、補聴機器使用者であるユーザが聞きたい目的音が一番聞こえやすくなるような、目的音のオブジェクトOBJ72の配置位置を探して補聴機器に設定しておくようにすることができる。そうすれば、補聴機器の実際の使用時に外部音の到来方向を推定し、その推定結果に応じて、声などの聞きたい音(目的音)の音像位置を、設定されたマスキングされにくい位置に配置し、より目的音を聞こえやすくすることができる。
 このような場合、例えば図1に示した情報処理装置11において、制御部22が表示部23を制御し、図16に示した再生位置調整画面を表示させる。このとき、制御部22は、表示部23を制御することで、入力部21から供給されるユーザの操作に応じた信号に基づき、再生位置調整画面(3次元空間)上における目的音のオブジェクトOBJ72の配置位置を移動させる。
 また、制御部22は、入力部21から供給されるユーザの操作に応じた信号に応じて、外部音の配置位置ごとに、その外部音(オブジェクトOBJ71)の配置位置を示す位置情報と、目的音(オブジェクトOBJ72)の配置位置を示す位置情報とからなる配置設定情報を生成し、記録する。換言すれば、配置位置情報は、外部音の到来方向と、その外部音の到来方向に対してユーザにより設定された、目的音が聞こえやすい方向、すなわち聞こえの良い目的音の到来方向とを示す情報である。
 なお、配置設定情報の生成にあたり、適宜、目的音と外部音についての周波数特性表示画面等が表示部23に表示されるようにしてもよい。また、制御部22がオブジェクトOBJ71の配置位置に応じた音像位置の外部音と、オブジェクトOBJ72の配置位置に応じた音像位置の目的音とが再生されるオーディオ信号を生成して図示せぬスピーカに供給し、外部音と目的音を再生させるようにしてもよい。
 制御部22は、生成した配置設定情報を情報処理装置11に接続された補聴機器に出力し、補聴機器では適宜、情報処理装置11から供給された配置設定情報が利用される。情報処理装置11から補聴機器への配置設定情報の供給は、ネットワークや他の装置を介して行われるようにしてもよい。
 情報処理装置11から供給された配置設定情報を利用する補聴機器として機能する音声再生装置は、例えば図17に示すように構成される。
 図17に示す音声再生装置301は、取得部311、記録部312、収音部313、制御部314、および再生部315を有している。音声再生装置301はイヤホンやヘッドホンなどであってもよいし、補聴器や集音器などの補聴機器であってもよい。
 取得部311は、情報処理装置11等の外部の装置から配置設定情報を取得して記録部312に供給し、記録させる。
 記録部312は、取得部311から供給された配置設定情報やHRTFなどの各種のデータを記録しており、記録しているデータを適宜、制御部314に供給する。
 収音部313は、例えば1つまたは複数のマイクユニットからなり、外部音や目的音を含む周囲の音を収音し、その結果得られた収音信号を制御部314に供給する。
 制御部314は、収音部313から供給された収音信号に基づいて、音声が増幅された再生信号を生成し、再生部315に供給する。
 このとき、例えば制御部314は、収音信号に対する音源分離や到来方向推定など、収音信号に基づく信号処理を行うとともに、外部音の到来方向の推定結果に対応する配置設定情報を記録部312から読み出す。すなわち、外部音の位置情報により示される位置の方向が、到来方向推定結果と同じ方向となっている配置設定情報が読み出される。
 この場合、少なくとも収音信号に基づいて外部音の到来方向を推定する処理が信号処理として行われる。その他、収音信号から外部音の信号や目的音の信号を抽出する音源分離等の処理、補聴処理などが行われるようにしてもよい。
 読み出した配置設定情報から、推定された外部音の到来方向に対して、ユーザが設定した、マスキングされにくくなる目的音の配置位置、すなわち目的音の到来方向(以下、設定到来方向とも称する)を特定することができる。
 制御部314は、例えば設定到来方向についてのHRTFを記録部312から読み出して、読み出したHRTFと、収音信号、より詳細には収音信号から得られた目的音の信号とに基づいて信号処理を行うことで再生信号を生成する。なお、再生信号を生成する際に行う目的音の到来方向(音像位置)を調整する処理は、HRTFを用いた処理に限らず、EQ・パンニングなど、どのような処理であってもよい。
 このようにして得られた再生信号は、外部音の到来方向の推定結果に対応する配置設定情報により示される、目的音が聞こえやすい方向(設定到来方向)に、目的音の音像が定位する音声信号、すなわち設定到来方向から目的音が聞こえる音声信号である。したがって、再生信号に基づき音声を再生することで、目的音が外部音にマスキングされにくくなり、目的音をより聞き取りやすくすることができる。
 再生部315は、例えばスピーカユニットからなり、制御部314から供給された再生信号に基づいて音声を再生(出力)する。
 以上のような音声再生装置301によれば、外部音の到来方向によらず、目的音をより聞き取りやすくすることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図18は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算するマスキング情報計算部と、
 前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる表示制御部と
 を備える情報処理装置。
(2)
 前記マスキング情報計算部は、前記注目オブジェクトの複数の各前記他のオブジェクトとの間の前記聴覚マスキング量の周波数ごとの合成値を合成マスキング周波数特性として計算し、
 前記表示制御部は、前記注目オブジェクトの前記合成マスキング周波数特性をさらに表示させる
 (1)に記載の情報処理装置。
(3)
 前記マスキング情報計算部は、
  前記注目オブジェクトの前記周波数スペクトルに基づいて、前記注目オブジェクト内における各周波数の聴覚マスキング量を計算し、
  前記注目オブジェクトの複数の各前記他のオブジェクトとの間の前記聴覚マスキング量、および前記注目オブジェクト内における前記聴覚マスキング量の周波数ごとの合成値を前記合成マスキング周波数特性として計算する
 (2)に記載の情報処理装置。
(4)
 前記表示制御部は、前記合成値が所定の上限値を超えた場合、前記合成値が前記上限値を超えたことをユーザに通知する
 (2)に記載の情報処理装置。
(5)
 前記上限値は、ユーザにより、オブジェクトごと、または周波数ごとに設定される
 (4)に記載の情報処理装置。
(6)
 1つまたは複数の各オブジェクトのオーディオ信号に基づいて、前記上限値を設定する上限値設定部をさらに備える
 (4)または(5)に記載の情報処理装置。
(7)
 前記マスキング情報計算部は、前記合成値が前記上限値を超えた場合、前記合成値が前記上限値を超えなくなる前記注目オブジェクトまたは前記他のオブジェクトの空間上の移動先の候補となる位置を計算し、
 前記表示制御部は、前記注目オブジェクトまたは前記他のオブジェクトの前記移動先の候補となる位置を表示させる
 (4)乃至(6)の何れか一項に記載の情報処理装置。
(8)
 前記マスキング情報計算部は、前記注目オブジェクトの前記周波数スペクトルに基づいて、前記注目オブジェクト内における各周波数の聴覚マスキング量をオブジェクト内マスキング周波数特性として計算し、
 前記表示制御部は、前記注目オブジェクトの前記オブジェクト内マスキング周波数特性をさらに表示させる
 (1)乃至(7)の何れか一項に記載の情報処理装置。
(9)
 オブジェクトのゲイン情報に基づいて、前記オブジェクトの前記周波数スペクトルのゲイン補正を行い、補正周波数スペクトルを生成する周波数スペクトル補正部をさらに備え、
 前記マスキング情報計算部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報と、前記他のオブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記オブジェクト間マスキング周波数特性を計算し、
 前記表示制御部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
 (1)乃至(8)の何れか一項に記載の情報処理装置。
(10)
 前記注目オブジェクトの前記ゲイン情報、および前記他のオブジェクトの前記ゲイン情報の少なくとも何れかが変更された場合、
 前記表示制御部は、前記注目オブジェクトの前記変更が反映された前記補正周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
 (9)に記載の情報処理装置。
(11)
 前記オブジェクト位置情報により定まるゲイン補正値に基づいて、オブジェクトの前記周波数スペクトルのゲイン補正を行い、補正周波数スペクトルを生成する周波数スペクトル補正部をさらに備え、
 前記マスキング情報計算部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報と、前記他のオブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記オブジェクト間マスキング周波数特性を計算し、
 前記表示制御部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
 (1)乃至(8)の何れか一項に記載の情報処理装置。
(12)
 前記注目オブジェクトの前記オブジェクト位置情報、および前記他のオブジェクトの前記オブジェクト位置情報の少なくとも何れかが変更された場合、
 前記表示制御部は、前記注目オブジェクトの前記変更が反映された前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
 (1)乃至(11)の何れか一項に記載の情報処理装置。
(13)
 前記マスキング情報計算部は、前記注目オブジェクトおよび前記他のオブジェクトが配置される空間の音響特性を示す音響パラメータに基づく前記オブジェクト間マスキング周波数特性を計算する
 (1)乃至(12)の何れか一項に記載の情報処理装置。
(14)
 前記オブジェクト間マスキング周波数特性の計算に用いられる前記音響パラメータは、予め用意された複数の前記音響パラメータのなかからユーザにより選択された前記音響パラメータ、前記ユーザにより入力された前記音響パラメータ、または複数の前記空間ごとの音響特性の実測データのなかから前記ユーザにより選択された前記実測データに基づき算出された前記音響パラメータである
 (13)に記載の情報処理装置。
(15)
 前記音響パラメータは、前記空間の大きさ、前記空間の形状、前記空間における壁の反射率のうちの少なくとも何れかを含む
 (13)または(14)に記載の情報処理装置。
(16)
 情報処理装置が、
 注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算し、
 前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
 情報処理方法。
(17)
 注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算し、
 前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
 ステップを含む処理をコンピュータに実行させるプログラム。
(18)
 オブジェクトのオーディオ信号に対する時間周波数変換を行い、周波数スペクトル情報を生成する時間周波数変換部と、
 前記周波数スペクトル情報と、前記オブジェクトについてのマスキング閾値に関する設定情報とに基づいて聴覚心理パラメータを計算する聴覚心理パラメータ計算部と、
 前記聴覚心理パラメータおよび前記周波数スペクトル情報に基づいてビットアロケーション処理を行い、量子化周波数スペクトル情報を生成するビットアロケーション部と
 を備える符号化装置。
(19)
 外部音の到来方向と、前記外部音の到来方向に対して、目的音が聞こえやすい方向とを示す配置設定情報を記録する記録部と、
 周囲の音を収音する収音部と、
 前記収音により得られた収音信号に基づいて前記外部音の到来方向を推定するとともに、前記収音信号に基づいて、前記外部音の到来方向の推定結果に対応する前記配置設定情報により示される前記目的音が聞こえやすい方向に、前記目的音の音像が定位する再生信号を生成する制御部と、
 前記再生信号に基づき音声を再生する再生部と
 を備える音声再生装置。
(20)
  空間上における外部音の配置位置と、目的音の配置位置とを示す位置調整画面を表示させるとともに、ユーザの操作に応じて、前記空間上における前記目的音の配置位置を移動させ、
  配置位置に応じた音像位置の前記外部音および前記目的音を再生させ、
  前記外部音の配置位置と前記目的音の配置位置に基づいて、前記外部音の到来方向と、前記外部音の到来方向に対して前記ユーザにより設定された、前記目的音が聞こえやすい方向とを示す配置設定情報を生成する
 制御部を備える情報処理装置。
 11 情報処理装置, 21 入力部, 22 制御部, 23 表示部, 31 時間周波数変換部, 32 ゲイン補正部, 33 3D聴覚特性テーブル保持部, 34 周波数スペクトル補正部, 35 マスキング情報計算部, 36 GUI生成部, 61 反射オブジェクト計算部, 91 上限値設定部, 201 エンコーダ, 212 オブジェクトオーディオ符号化部, 213 パッキング部, 242 量子化部

Claims (20)

  1.  注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算するマスキング情報計算部と、
     前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる表示制御部と
     を備える情報処理装置。
  2.  前記マスキング情報計算部は、前記注目オブジェクトの複数の各前記他のオブジェクトとの間の前記聴覚マスキング量の周波数ごとの合成値を合成マスキング周波数特性として計算し、
     前記表示制御部は、前記注目オブジェクトの前記合成マスキング周波数特性をさらに表示させる
     請求項1に記載の情報処理装置。
  3.  前記マスキング情報計算部は、
      前記注目オブジェクトの前記周波数スペクトルに基づいて、前記注目オブジェクト内における各周波数の聴覚マスキング量を計算し、
      前記注目オブジェクトの複数の各前記他のオブジェクトとの間の前記聴覚マスキング量、および前記注目オブジェクト内における前記聴覚マスキング量の周波数ごとの合成値を前記合成マスキング周波数特性として計算する
     請求項2に記載の情報処理装置。
  4.  前記表示制御部は、前記合成値が所定の上限値を超えた場合、前記合成値が前記上限値を超えたことをユーザに通知する
     請求項2に記載の情報処理装置。
  5.  前記上限値は、ユーザにより、オブジェクトごと、または周波数ごとに設定される
     請求項4に記載の情報処理装置。
  6.  1つまたは複数の各オブジェクトのオーディオ信号に基づいて、前記上限値を設定する上限値設定部をさらに備える
     請求項4に記載の情報処理装置。
  7.  前記マスキング情報計算部は、前記合成値が前記上限値を超えた場合、前記合成値が前記上限値を超えなくなる前記注目オブジェクトまたは前記他のオブジェクトの空間上の移動先の候補となる位置を計算し、
     前記表示制御部は、前記注目オブジェクトまたは前記他のオブジェクトの前記移動先の候補となる位置を表示させる
     請求項4に記載の情報処理装置。
  8.  前記マスキング情報計算部は、前記注目オブジェクトの前記周波数スペクトルに基づいて、前記注目オブジェクト内における各周波数の聴覚マスキング量をオブジェクト内マスキング周波数特性として計算し、
     前記表示制御部は、前記注目オブジェクトの前記オブジェクト内マスキング周波数特性をさらに表示させる
     請求項1に記載の情報処理装置。
  9.  オブジェクトのゲイン情報に基づいて、前記オブジェクトの前記周波数スペクトルのゲイン補正を行い、補正周波数スペクトルを生成する周波数スペクトル補正部をさらに備え、
     前記マスキング情報計算部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報と、前記他のオブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記オブジェクト間マスキング周波数特性を計算し、
     前記表示制御部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
     請求項1に記載の情報処理装置。
  10.  前記注目オブジェクトの前記ゲイン情報、および前記他のオブジェクトの前記ゲイン情報の少なくとも何れかが変更された場合、
     前記表示制御部は、前記注目オブジェクトの前記変更が反映された前記補正周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
     請求項9に記載の情報処理装置。
  11.  前記オブジェクト位置情報により定まるゲイン補正値に基づいて、オブジェクトの前記周波数スペクトルのゲイン補正を行い、補正周波数スペクトルを生成する周波数スペクトル補正部をさらに備え、
     前記マスキング情報計算部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報と、前記他のオブジェクトの前記補正周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記オブジェクト間マスキング周波数特性を計算し、
     前記表示制御部は、前記注目オブジェクトの前記補正周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
     請求項1に記載の情報処理装置。
  12.  前記注目オブジェクトの前記オブジェクト位置情報、および前記他のオブジェクトの前記オブジェクト位置情報の少なくとも何れかが変更された場合、
     前記表示制御部は、前記注目オブジェクトの前記変更が反映された前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
     請求項1に記載の情報処理装置。
  13.  前記マスキング情報計算部は、前記注目オブジェクトおよび前記他のオブジェクトが配置される空間の音響特性を示す音響パラメータに基づく前記オブジェクト間マスキング周波数特性を計算する
     請求項1に記載の情報処理装置。
  14.  前記オブジェクト間マスキング周波数特性の計算に用いられる前記音響パラメータは、予め用意された複数の前記音響パラメータのなかからユーザにより選択された前記音響パラメータ、前記ユーザにより入力された前記音響パラメータ、または複数の前記空間ごとの音響特性の実測データのなかから前記ユーザにより選択された前記実測データに基づき算出された前記音響パラメータである
     請求項13に記載の情報処理装置。
  15.  前記音響パラメータは、前記空間の大きさ、前記空間の形状、前記空間における壁の反射率のうちの少なくとも何れかを含む
     請求項13に記載の情報処理装置。
  16.  情報処理装置が、
     注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算し、
     前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
     情報処理方法。
  17.  注目オブジェクトの周波数スペクトルおよびオブジェクト位置情報と、前記注目オブジェクトとは異なる他のオブジェクトの前記周波数スペクトルおよび前記オブジェクト位置情報とに基づいて、前記注目オブジェクトの前記他のオブジェクトとの間における各周波数の聴覚マスキング量をオブジェクト間マスキング周波数特性として計算し、
     前記注目オブジェクトの前記周波数スペクトルおよび前記オブジェクト間マスキング周波数特性を表示させる
     ステップを含む処理をコンピュータに実行させるプログラム。
  18.  オブジェクトのオーディオ信号に対する時間周波数変換を行い、周波数スペクトル情報を生成する時間周波数変換部と、
     前記周波数スペクトル情報と、前記オブジェクトについてのマスキング閾値に関する設定情報とに基づいて聴覚心理パラメータを計算する聴覚心理パラメータ計算部と、
     前記聴覚心理パラメータおよび前記周波数スペクトル情報に基づいてビットアロケーション処理を行い、量子化周波数スペクトル情報を生成するビットアロケーション部と
     を備える符号化装置。
  19.  外部音の到来方向と、前記外部音の到来方向に対して、目的音が聞こえやすい方向とを示す配置設定情報を記録する記録部と、
     周囲の音を収音する収音部と、
     前記収音により得られた収音信号に基づいて前記外部音の到来方向を推定するとともに、前記収音信号に基づいて、前記外部音の到来方向の推定結果に対応する前記配置設定情報により示される前記目的音が聞こえやすい方向に、前記目的音の音像が定位する再生信号を生成する制御部と、
     前記再生信号に基づき音声を再生する再生部と
     を備える音声再生装置。
  20.   空間上における外部音の配置位置と、目的音の配置位置とを示す位置調整画面を表示させるとともに、ユーザの操作に応じて、前記空間上における前記目的音の配置位置を移動させ、
      配置位置に応じた音像位置の前記外部音および前記目的音を再生させ、
      前記外部音の配置位置と前記目的音の配置位置に基づいて、前記外部音の到来方向と、前記外部音の到来方向に対して前記ユーザにより設定された、前記目的音が聞こえやすい方向とを示す配置設定情報を生成する
     制御部を備える情報処理装置。
PCT/JP2023/025402 2022-07-25 2023-07-10 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム WO2024024468A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022117760 2022-07-25
JP2022-117760 2022-07-25

Publications (1)

Publication Number Publication Date
WO2024024468A1 true WO2024024468A1 (ja) 2024-02-01

Family

ID=89706207

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/025402 WO2024024468A1 (ja) 2022-07-25 2023-07-10 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2024024468A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010103442A1 (en) * 2009-03-13 2010-09-16 Koninklijke Philips Electronics N.V. Embedding and extracting ancillary data
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置
US20160267914A1 (en) * 2013-11-29 2016-09-15 Dolby Laboratories Licensing Corporation Audio object extraction
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
WO2020209103A1 (ja) * 2019-04-11 2020-10-15 ソニー株式会社 情報処理装置および方法、再生装置および方法、並びにプログラム
WO2022038932A1 (ja) * 2020-08-20 2022-02-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、コンピュータプログラム及び音響再生装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010103442A1 (en) * 2009-03-13 2010-09-16 Koninklijke Philips Electronics N.V. Embedding and extracting ancillary data
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置
US20160267914A1 (en) * 2013-11-29 2016-09-15 Dolby Laboratories Licensing Corporation Audio object extraction
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
WO2020209103A1 (ja) * 2019-04-11 2020-10-15 ソニー株式会社 情報処理装置および方法、再生装置および方法、並びにプログラム
WO2022038932A1 (ja) * 2020-08-20 2022-02-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響再生方法、コンピュータプログラム及び音響再生装置

Similar Documents

Publication Publication Date Title
JP7367785B2 (ja) 音声処理装置および方法、並びにプログラム
KR101782917B1 (ko) 오디오 신호 처리 방법 및 장치
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
JP5511136B2 (ja) マルチチャネルシンセサイザ制御信号を発生するための装置および方法並びにマルチチャネル合成のための装置および方法
US10204614B2 (en) Audio scene apparatus
JP4921470B2 (ja) 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
JP4343845B2 (ja) オーディオデータ処理方法及びこの方法を実現する集音装置
CN109891503B (zh) 声学场景回放方法和装置
CN106796792B (zh) 用于增强音频信号的装置和方法、声音增强系统
JP2023517720A (ja) 残響のレンダリング
JP2007512740A (ja) 低周波チャネルを生成する装置および方法
JP6865440B2 (ja) 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
TW201611626A (zh) 判定音訊預補償控制器的濾波器係數以用於補償相關聯音響系統的方法、裝置、系統與電腦程式
JP5611970B2 (ja) オーディオ信号を変換するためのコンバータ及び方法
JP2012509632A5 (ja) オーディオ信号を変換するためのコンバータ及び方法
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
WO2018193162A2 (en) Audio signal generation for spatial audio mixing
JP6970366B2 (ja) 音像再現装置、音像再現方法及び音像再現プログラム
US9877137B2 (en) Systems and methods for playing a venue-specific object-based audio
US10587983B1 (en) Methods and systems for adjusting clarity of digitized audio signals
WO2024024468A1 (ja) 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム
Mores Music studio technology
WO2022009694A1 (ja) 信号処理装置および方法、並びにプログラム
WO2018193160A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
JP6774912B2 (ja) 音像生成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23846200

Country of ref document: EP

Kind code of ref document: A1