WO2022196135A1 - 情報処理方法、情報処理装置、および、プログラム - Google Patents

情報処理方法、情報処理装置、および、プログラム Download PDF

Info

Publication number
WO2022196135A1
WO2022196135A1 PCT/JP2022/003588 JP2022003588W WO2022196135A1 WO 2022196135 A1 WO2022196135 A1 WO 2022196135A1 JP 2022003588 W JP2022003588 W JP 2022003588W WO 2022196135 A1 WO2022196135 A1 WO 2022196135A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
spatial resolution
user
information processing
sound source
Prior art date
Application number
PCT/JP2022/003588
Other languages
English (en)
French (fr)
Inventor
耕 水野
智一 石川
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to JP2023506833A priority Critical patent/JPWO2022196135A1/ja
Priority to KR1020237030572A priority patent/KR20230157331A/ko
Priority to EP22770897.1A priority patent/EP4311272A1/en
Priority to CN202280020492.3A priority patent/CN116965064A/zh
Publication of WO2022196135A1 publication Critical patent/WO2022196135A1/ja
Priority to US18/243,199 priority patent/US20230421988A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to an information processing method, an information processing device, and a program.
  • stereophonic processing requires a relatively large scale of computation, and there is a problem that the output sound may be delayed depending on the time required for the computation.
  • the present invention provides a device such as an information processing method that suppresses delay that may occur in output sound.
  • An information processing method acquires a stream including first position and orientation information indicating the position and orientation of a sound source and a sound signal indicating the sound output by the sound source, and second position/posture information indicating a posture, and using the first position/posture information and the second position/posture information, the sound signal is generated according to the positional relationship between the user's head and the sound source.
  • This is an information processing method for setting the spatial resolution in the stereophonic processing applied to the.
  • the information processing method of the present invention can suppress delays that may occur in output sounds.
  • FIG. 1 is an explanatory diagram showing an example of the positional relationship between the user and the sound source in the embodiment.
  • FIG. 2 is a block diagram showing the functional configuration of the information processing device according to the embodiment.
  • FIG. 3 is a first explanatory diagram of spatial resolution of stereophonic processing in the embodiment.
  • FIG. 4 is a second explanatory diagram of the spatial resolution of the stereophonic sound processing in the embodiment.
  • FIG. 5 is a third explanatory diagram of the spatial resolution of the stereophonic sound processing in the embodiment.
  • FIG. 6 is an explanatory diagram of the response time length of the stereophonic sound processing in the embodiment.
  • FIG. 7 is an explanatory diagram showing a first example of parameters for stereophonic sound processing according to the embodiment.
  • FIG. 8 is an explanatory diagram showing a second example of parameters for stereophonic sound processing according to the embodiment.
  • FIG. 9 is an explanatory diagram showing a third example of parameters for stereophonic sound processing according to the embodiment.
  • FIG. 10 is a flow diagram showing processing of the information processing apparatus according to the embodiment.
  • the above stereophonic sound processing technology is effective only when the change in the user's posture is relatively small or regular. If the above case is deviated from, the predicted posture information does not match the actual posture information of the user, so the position of the sound image for the user may not be appropriate or the position of the sound image may change rapidly.
  • Patent Document 1 may not solve the problem that the output sound may be delayed due to the time required for computation of stereophonic processing.
  • an information processing method provides a stream including first position/orientation information indicating the position and orientation of a sound source, and a sound signal indicating the sound output by the sound source. is obtained, second position and orientation information indicating the position and orientation of the user's head is obtained, and the user's head and the sound source are obtained using the first and second position and orientation information.
  • This is an information processing method for setting spatial resolution in stereophonic processing applied to the sound signal according to the positional relationship between the two.
  • the spatial resolution in the stereophonic processing is set according to the positional relationship between the user's head and the sound source, it is possible to adjust the scale of calculation required for the stereophonic processing. Therefore, when the scale of computation required for stereophonic sound processing is relatively large, reducing the spatial resolution reduces the scale of computation and shortens the time required for stereophonic processing, resulting in a delay that can occur in the output sound. can be suppressed. Thus, according to the above information processing method, it is possible to suppress the delay that may occur in the output sound.
  • the larger the distance between the user's head and the sound source, the lower the spatial resolution may be set.
  • the spatial resolution in stereophonic processing is set lower as the distance between the user's head and the sound source increases, thereby reducing the scale of computation required for stereophonic processing. possible delays can be suppressed.
  • the information processing method it is possible to more easily suppress delays that may occur in the output sound.
  • the stream further includes type information indicating whether the sound indicated by the sound signal is human speech, and in the setting of the spatial resolution, the sound indicated by the sound signal is human speech. is indicated in the type information, the spatial resolution may be set higher.
  • the stream further includes type information indicating whether or not the sound indicated by the sound signal is human speech, and the spatial resolution setting indicates that the sound indicated by the sound signal is not human speech. is indicated in the type information, the spatial resolution may be set lower.
  • the scale of computation required for stereophonic processing for sounds that are not human speech is reduced. Delays that may occur in sound can be suppressed. Compared to human speech, the sound image position of non-human sounds may not require a high degree of accuracy. It can contribute to the suppression of possible delays. Thus, according to the information processing method, it is possible to more easily suppress delays that may occur in the output sound.
  • the stream includes the first position and orientation information and the sound signal for the one or more sound sources, and in setting the spatial resolution, the greater the number of the one or more sound sources, the higher the spatial resolution. You can set it lower.
  • the spatial resolution is set lower as the number of sound sources included in the stream increases, thereby reducing the scale of computation required for stereophonic sound processing and, as a result, reducing the delay that may occur in the output sound. can be suppressed.
  • the information processing method it is possible to more easily suppress delays that may occur in the output sound.
  • the time response length in the stereophonic processing may be further set according to the positional relationship.
  • the time response length in the stereophonic processing is set according to the positional relationship between the user's head and the sound source, the user can appropriately perceive the distance from the user to the sound source.
  • the information processing method it is possible to suppress the delay that may occur in the output sound while allowing the user to appropriately perceive the distance from the user to the sound source.
  • the greater the distance between the user's head and the sound source the greater the time response length may be set.
  • the user can appropriately perceive the distance from the user to the sound source.
  • the above information processing method it is possible to suppress the delay that may occur in the output sound while allowing the user to appropriately perceive the distance from the user to the sound source.
  • an output signal indicating a sound output by a speaker is generated, and the generated output signal is transmitted to the speaker. may cause the speaker to output the sound indicated by the output signal.
  • the user can listen to the output sound with suppressed delay by outputting the sound based on the output signal generated by stereophonic processing using the set spatial resolution and allowing the user to listen to it. can.
  • the information processing method it is possible to suppress the delay that may occur in the output sound, and allow the user to listen to the output sound with the suppressed delay.
  • the stereophonic processing uses the first position and orientation information and the second position and orientation information to perform stereophonic processing in a space in which the sound source is arranged according to the positional relationship between the user's head and the sound source.
  • the spatial resolution may be the spatial resolution in the rendering process.
  • the spatial resolution is set in rendering processing as stereophonic processing. Therefore, according to the information processing method, it is possible to suppress the delay that may occur in the output sound.
  • an information processing apparatus includes a decoding unit that acquires a stream including first position/orientation information indicating the position and orientation of a sound source and a sound signal that indicates the sound output by the sound source; an acquisition unit for acquiring second position/posture information indicating the position and posture of the head of the user; and a setting unit that sets spatial resolution in stereophonic processing to be applied to the sound signal according to the relationship.
  • a program according to one aspect of the present invention is a program that causes a computer to execute the above information processing method.
  • these general or specific aspects may be realized by a system, device, integrated circuit, computer program, or a recording medium such as a computer-readable CD-ROM. Or it may be realized by any combination of recording media.
  • FIG. 1 is an explanatory diagram showing an example of the positional relationship between the user U and the sound source 5 in this embodiment.
  • FIG. 1 shows a user U existing in a space S and a sound source 5 recognized by the user U.
  • the space S is represented as a plane containing the x-axis and the y-axis, but also has an extension in the z-axis direction. The same applies hereafter.
  • Walls or objects may be placed in the space S. Walls also include ceilings or floors.
  • the information processing device 10 generates a sound signal for the user U to listen to by performing stereophonic processing, which is digital sound processing, based on a stream including the sound signal output by the sound source 5 .
  • the stream further includes position and orientation information indicating the position and orientation of the sound source 5 in the space S.
  • the sound signal generated by the information processing device 10 is output as a sound by a speaker, and the user U listens to the sound.
  • the speaker is assumed to be a speaker included in earphones or headphones worn by the user U, but is not limited to this.
  • the sound source 5 is a virtual sound source (generally referred to as a sound image) that is recognized as a sound source by the user U listening to the sound signal generated based on the stream. is not a source of Although a human is shown as the sound source 5 in FIG. 1, the sound source 5 is not limited to a human and may be any sound source.
  • the user U listens to the sound based on the sound signal generated by the information processing device 10 and output from the speaker.
  • the sound output from the speaker based on the sound signal generated by the information processing device 10 is heard by the left and right ears of the user U, respectively.
  • An appropriate time difference or phase difference (also referred to as a time difference or the like) is provided by the information processing device 10 to the sounds heard by the left and right ears of the user U, respectively.
  • the user U perceives the direction of the sound source 5 for the user U based on the time difference between the sounds heard by the left and right ears.
  • the sounds heard by the left and right ears of the user U include sounds corresponding to sounds that directly arrive from the sound source 5 (referred to as direct sounds), and sounds that are output from the sound source 5 and arrive after being reflected by the wall surface.
  • a sound corresponding to (described as reflected sound) is included by the information processing device 10 .
  • the user U perceives the distance from the user U to the sound source 5 based on the time interval between the direct sound and the reflected sound included in the heard sound.
  • the timing of arrival of the direct sound and the reflected sound at the user U, and the amplitude and phase of the direct sound and the reflected sound are determined based on the sound signal included in the stream.
  • a sound signal (described as an output signal) indicating the sound to be output from the speaker is generated.
  • Stereophonic processing can involve relatively large scale computations.
  • the information processing apparatus 10 When the number of sound signals included in the stream is relatively large, or when the spatial resolution of the stereophonic sound processing is relatively high, the information processing apparatus 10 requires a relatively long time for arithmetic processing, and the output signal is Generation and output can be delayed.
  • One of the measures to suppress the delay that may occur in the output signal is to lower the spatial resolution of the stereophonic processing. can decline. In this way, there is a trade-off relationship between the high quality of sound heard by the user U and the amount of arithmetic processing included in stereophonic processing.
  • the information processing device 10 uses the distance between the user U and the sound source 5 to adjust the parameters of the stereophonic processing, thereby contributing to the reduction of the processing load of the stereophonic processing. For example, the information processing apparatus 10 reduces the processing load of the stereophonic sound processing by lowering the spatial resolution, which is a parameter of the stereophonic sound processing.
  • FIG. 2 is a block diagram showing the functional configuration of the information processing device 10 according to this embodiment.
  • the information processing device 10 includes a decoding unit 11, an acquisition unit 12, an adjustment unit 13, a processing unit 14, and a setting unit 15 as functional units.
  • the functional units included in the information processing apparatus 10 are implemented by a processor (such as a CPU (Central Processing Unit)) (not shown) included in the information processing apparatus 10 executing a predetermined program using a memory (not shown). obtain.
  • a processor such as a CPU (Central Processing Unit)
  • the decoding unit 11 is a functional unit that decodes the stream.
  • the stream specifically includes position and orientation information (corresponding to first position and orientation information) indicating the position and orientation of the sound source 5 in the space S, and a sound signal indicating the sound output by the sound source 5 .
  • the stream may include type information indicating whether or not the sound output by the sound source 5 is human speech.
  • voice means human voice.
  • the decoding unit 11 provides the sound signal obtained by decoding the stream to the processing unit 14, and provides the position and orientation information obtained by decoding the stream to the adjusting unit 13.
  • the stream may be obtained by the information processing device 10 from an external device, or may be stored in advance in a storage device of the information processing device 10 .
  • a stream is a stream encoded in a predetermined format. be.
  • the position and orientation information indicating the position and orientation of the sound source 5 is the coordinates (x, y and z) of the sound source 5 in the directions of the three axes and the angles around the three axes (yaw angle, pitch angle and roll angle ) and 6 degrees of freedom.
  • the position and orientation information of the sound source 5 can specify the position and orientation of the sound source 5 .
  • the coordinates are coordinates in an appropriately set coordinate system.
  • the posture is an angle around three axes indicating a predetermined direction (referred to as a reference direction) for the sound source 5 .
  • the reference direction may be the direction in which the sound source 5 outputs sound, or any other direction that is uniquely determined for the sound source 5 .
  • a stream may include, for each of one or more sound sources 5, position and orientation information indicating the position and orientation of the sound source 5, and a sound signal indicating the sound output by the sound source 5.
  • the acquisition unit 12 is a functional unit that acquires the position and posture of the user's U head in the space S.
  • the acquisition unit 12 acquires position and orientation information (second position and orientation information) including information indicating the position of the head of the user U (described as position information) and information indicating the orientation (described as orientation information) from a sensor or the like.
  • position information information indicating the position of the head of the user U
  • orientation information information indicating the orientation information from a sensor or the like.
  • the position and orientation information of the head of the user U includes the coordinates (x, y and z) of the head of the user U in the three-axis directions and the angles around the three axes (yaw angle, pitch angle and roll angle). It is information of 6 degrees of freedom, including angle).
  • the position and orientation of the user U's head can be identified by the position and orientation information of the user's U head.
  • the coordinates are coordinates in a coordinate system common to the coordinate system defined for the sound source 5 .
  • a position can be defined as a position having a predetermined positional relationship from a predetermined position (eg, origin) in a coordinate system.
  • the posture is an angle around three axes indicating the direction in which the user U's head is facing.
  • the sensors may be, for example, inertial measurement units (IMUs), accelerometers, gyroscopes, magnetic sensors, or combinations thereof.
  • IMUs inertial measurement units
  • accelerometers accelerometers
  • gyroscopes magnetic sensors
  • the sensor or the like is assumed to be worn on the head of the user U, and may be fixed to an earphone or headphone worn by the user U.
  • the adjustment unit 13 is a functional unit that adjusts the position and orientation information of the user U in the space S using the parameters in the stereophonic processing performed by the processing unit 14 .
  • the adjustment unit 13 acquires the spatial resolution, which is a parameter in stereophonic processing, from the setting unit 15 . Then, the adjustment unit 13 adjusts the position information of the head of the user U acquired by the acquisition unit 12 by changing it to any value that is an integral multiple of the spatial resolution. When changing, the adjustment unit 13 may adopt the value closest to the position information of the user U's head acquired by the acquisition unit 12 from among a plurality of values that are integral multiples of the spatial resolution. The adjustment unit 13 provides the adjusted position information of the user U's head and the adjusted posture information of the user's U head to the processing unit 14 .
  • the processing unit 14 is a functional unit that performs stereophonic processing, which is digital acoustic processing, on the sound signal acquired by the decoding unit 11 .
  • the processing unit 14 has a plurality of filters used for stereophonic processing. Filters are used, for example, in calculations that adjust the amplitude and phase of sound signals for each frequency.
  • the processing unit 14 acquires parameters (that is, spatial resolution and time response length) used for stereophonic processing from the adjusting unit 13, and performs stereophonic processing using the acquired parameters.
  • the processing unit 14 calculates the propagation paths of the direct sound and the reflected sound arriving at the user U from the sound source 5, and also calculates the timing at which the direct sound and the reflected sound reach the user. Also, for each range of angular directions around the head of the user U, applying a filter according to the range to the signal indicating the sound (direct sound and reflected sound) arriving at the user U from that range. , the amplitude and phase of the sound arriving at the user U are calculated.
  • the setting unit 15 is a functional unit that sets parameters for stereophonic processing executed by the processing unit 14 .
  • the parameters of stereophonic processing may include spatial resolution and temporal response length in stereophonic processing.
  • the setting unit 15 uses the position and orientation information of the sound source 5 in the space S and the position and orientation information of the user U acquired by the acquisition unit 12 to generate a stereoscopic image according to the positional relationship between the head of the user U and the sound source 5.
  • Sets the spatial resolution which is a parameter of acoustic processing.
  • the setting unit 15 may further set a time response length, which is a parameter of stereophonic processing, according to the positional relationship.
  • the setting unit 15 provides the set parameters to the adjusting unit 13 .
  • the distance D between the user U and the sound source 5 can be used for parameter setting.
  • Distance D is a vector indicating the position and orientation of the sound source 5
  • the setting unit 15 may set the spatial resolution lower as the distance D between the head of the user U and the sound source 5 in the space S increases.
  • the setting unit 15 may set the time response length larger as the distance D between the head of the user U and the sound source 5 in the space S increases.
  • the spatial resolution of the stereophonic processing is the resolution of the angular range centered on the user U.
  • the processing unit 14 applies a filter to sound signals arriving at the user U from each relatively narrow angular range (for example, angular range 30).
  • the processing unit 14 applies a filter to sound signals arriving at the user U from each relatively wide angle range (for example, the angle range 40).
  • a high spatial resolution corresponds to a narrow angular range
  • a low spatial resolution corresponds to a wide angular range.
  • the angular range corresponds to the units to which the same filter is applied.
  • the processing unit 14 applies a filter corresponding to each angular range 31, 32, 33, . . . By doing so, sound signals representing sounds arriving at the user U from each of the angular ranges 31, 32, 33, . . . are calculated (see FIG. 4). The sound arriving at the user U from each of the angular ranges 31, 32, 33, .
  • the processing unit 14 applies a filter corresponding to each angular range 41, 42, 43, . . . Sound signals representing sounds arriving at the user U from each of the angular ranges 41, 42, 43, . . . are calculated (see FIG. 5). The sound arriving at the user U from each of the angular ranges 41, 42, 43, .
  • FIG. 6 is an explanatory diagram of the response time length of stereophonic sound processing in this embodiment.
  • FIG. 6 shows sound signals generated by stereophonic processing.
  • the sound signal includes a waveform 51 corresponding to direct sound arriving at the user U from the sound source 5 and waveforms 52 , 53 , 54 , 55 and 56 corresponding to reflected sounds arriving at the user U from the sound source 5 .
  • Each of the waveforms 52, 53, 54, 55 and 56 corresponding to the reflected sound is delayed from the direct sound by the delay time determined by the positional relationship between the sound source 5, the user U and the wall surface in the space S, Amplitude is reduced due to reflection from the wall surface.
  • the delay time is determined within a range of approximately 10 msec to 100 msec.
  • the time response length is an index that indicates the magnitude of the delay time. The longer the time response length, the longer the delay time, and the shorter the time response length, the shorter the delay time.
  • the time response length is only an index of the magnitude of the delay time, and does not indicate the delay time itself of the waveform corresponding to the reflected sound.
  • the time width from waveform 51 to waveform 55 and the time response length are substantially equal, but this is not limiting, and there are cases where the time width from waveform 51 to waveform 54 and the time response length are substantially equal.
  • the time width from waveform 51 to waveform 56 may be approximately equal to the time response length.
  • FIG. 7 is an explanatory diagram showing a first example of parameters for stereophonic processing in this embodiment.
  • FIG. 7 shows a correspondence table in which spatial resolution and time response length, which are parameters of stereophonic processing, are associated with each of a plurality of ranges of distance D between user U and sound source 5 .
  • a distance D of less than 1 m is associated with a spatial resolution of 10 degrees and a time response length of 10 msec.
  • the distance D of 1 m or more and less than 3 m, 3 m or more and less than 20 m, and 20 m or more has a spatial resolution of 30 degrees, 45 degrees, and 90 degrees, and a time response length of 50 msec, 200 msec, and 1 sec. is associated with
  • the setting unit 15 has a correspondence table between the distance D and the spatial resolution shown in FIG. 7, and provides the adjustment unit 13 with the correspondence table.
  • the adjustment unit 13 refers to the provided correspondence table and acquires the spatial resolution and the time response length associated with the distance D between the head of the user U and the sound source 5 acquired from the acquisition unit 12 .
  • the setting unit 15 sets the spatial resolution lower as the distance D between the head of the user U and the sound source 5 in the space S increases. In other words, the setting unit 15 sets a value indicating a lower spatial resolution. . In addition, the setting unit 15 sets the time response length larger as the distance D between the head of the user U and the sound source 5 in the space S increases, in other words, sets a value indicating a longer time response length.
  • the setting unit 15 may change the spatial resolution according to whether or not the sound indicated by the sound signal is human speech.
  • the information processing apparatus 10 changes the spatial resolution according to whether or not the sound indicated by the sound signal is human speech, thereby contributing to more accurate stereophonic processing of human speech.
  • the setting unit 15 may set a higher spatial resolution when the type information indicates that the sound indicated by the sound signal is human speech. In other words, a value indicating higher spatial resolution may be set.
  • the setting unit 15 may correct the value to indicate a higher spatial resolution than the already set spatial resolution.
  • the setting unit 15 may set the spatial resolution lower when the type information indicates that the sound indicated by the sound signal is not human speech. A value indicating low spatial resolution may be set.
  • the setting unit 15 may correct the value to indicate a lower spatial resolution than the already set spatial resolution.
  • the setting unit 15 may change the spatial resolution according to the number of sound sources included in the stream.
  • the setting unit 15 may set the spatial resolution lower as the number of sound sources included in the stream increases. You may When setting the spatial resolution, if the spatial resolution has already been set, the setting unit 15 may correct the value to indicate a lower spatial resolution than the already set spatial resolution.
  • FIG. 8 is an explanatory diagram showing a second example of parameters for stereophonic processing in this embodiment.
  • FIG. 8 shows a correspondence table in which spatial resolution is associated with each of a plurality of ranges of the distance D between the user U and the sound source 5, and is an example of the parameters corrected by the setting unit 15 from the parameters shown in FIG. is.
  • a distance D of less than 1 m is associated with a spatial resolution of 5 degrees.
  • distances D of 1 m or more and less than 3 m, 3 m or more and less than 20 m, and 20 m or more are associated with spatial resolutions of 15 degrees, 22.5 degrees, and 45 degrees, respectively.
  • the spatial resolution values shown in FIG. 8 are 1 ⁇ 2 times the spatial resolution values shown in FIG. 7 for each value of distance D.
  • FIG. 8 has twice the spatial resolution shown in FIG. 7 for each value of distance D.
  • the setting unit 15 converts the correspondence table used for stereophonic processing from the correspondence table shown in FIG. 7 to the correspondence table shown in FIG. to be corrected. This allows the setting unit 15 to set a higher spatial resolution when the type information indicates that the sound indicated by the sound signal is human speech.
  • FIG. 9 is an explanatory diagram showing a third example of parameters for stereophonic processing in this embodiment.
  • FIG. 9 shows a correspondence table in which the spatial resolution is associated with each of a plurality of ranges of the distance D between the user U and the sound source 5, corrected by the setting unit 15 from the parameters shown in FIG. be.
  • a distance D of less than 1 m is associated with a spatial resolution of 20 degrees.
  • distances D of 1 m or more and less than 3 m, 3 m or more and less than 20 m, and 20 m or more are associated with spatial resolutions of 60 degrees, 90 degrees, and 180 degrees.
  • the spatial resolution values shown in FIG. 9 are twice the spatial resolution values shown in FIG. 7 for each value of distance D.
  • the spatial resolution shown in FIG. 9 has, for each value of distance D, half the spatial resolution shown in FIG.
  • the setting unit 15 changes the correspondence table used for stereophonic processing from the correspondence table shown in FIG. 7 to the correspondence table shown in FIG. fix it. Accordingly, the setting unit 15 can set the spatial resolution to be lower when the type information indicates that the sound indicated by the sound signal is not human speech.
  • FIG. 10 is a flowchart showing processing of the information processing device 10 according to the present embodiment.
  • step S101 the decoding unit 11 acquires a stream.
  • the stream includes information indicating the position and orientation of the sound source 5 (corresponding to first position and orientation information) and a sound signal indicating the sound output by the sound source 5 .
  • step S102 the acquisition unit 12 acquires information indicating the position and orientation of the user's U head (corresponding to second position and orientation information).
  • step S103 the setting unit 15 uses the first position/posture information and the second position/posture information to apply stereophonic processing to the sound signal according to the positional relationship between the head of the user U and the sound source 5. Sets the spatial resolution at .
  • step S104 the processing unit 14 performs stereophonic processing with the spatial resolution set in step S103, thereby generating and outputting a sound signal to be output by the speaker. It is assumed that the output sound signal is transmitted to a speaker, output as sound, and listened to by the user U.
  • the information processing device 10 can suppress delays that may occur in the output sound.
  • information processing apparatus 10 sets the spatial resolution in stereophonic processing according to the positional relationship between the user's head and the sound source. can be adjusted. Therefore, when the scale of computation required for stereophonic sound processing is relatively large, reducing the spatial resolution reduces the scale of computation and shortens the time required for stereophonic processing, resulting in a delay that can occur in the output sound. can be suppressed. Thus, according to the above information processing method, it is possible to suppress the delay that may occur in the output sound.
  • the information processing apparatus 10 sets the spatial resolution in the stereophonic sound processing to be lower as the distance between the user's head and the sound source increases, thereby reducing the scale of calculation required for the stereophonic sound processing. It is possible to suppress the delay that may occur in the output sound. Thus, according to the information processing method, it is possible to more easily suppress delays that may occur in the output sound.
  • the information processing apparatus 10 sets a high spatial resolution in the stereophonic processing of human speech, so that the user can hear human speech with higher quality than non-human speech. Since relatively high accuracy is sometimes required for the sound image position of human speech compared to sound that is not human speech, this can contribute to improving the accuracy of the sound image position of human speech. As described above, according to the information processing method, it is possible to suppress the delay that may occur in the output sound while improving the quality of the human voice included in the output sound.
  • the information processing apparatus 10 reduces the scale of computation required for stereophonic processing of non-human sounds by setting the spatial resolution in the stereophonic processing of non-human sounds to a low level. , the delay that may occur in the output sound can be suppressed. Compared to human speech, the sound image position of non-human sounds may not require a high degree of accuracy. It can contribute to the suppression of possible delays. Thus, according to the information processing method, it is possible to more easily suppress delays that may occur in the output sound.
  • the information processing apparatus 10 sets the spatial resolution to be lower as the number of sound sources included in the stream increases, thereby reducing the scale of computation required for stereophonic processing. Delay can be suppressed. Thus, according to the information processing method, it is possible to more easily suppress delays that may occur in the output sound.
  • the information processing apparatus 10 sets the time response length in the stereophonic processing according to the positional relationship between the user's head and the sound source, the user can appropriately perceive the distance from the user to the sound source. can. As described above, according to the information processing method, it is possible to suppress the delay that may occur in the output sound while allowing the user to appropriately perceive the distance from the user to the sound source.
  • the information processing apparatus 10 sets the time response length in stereophonic processing to be larger as the distance between the user's head and the sound source increases, thereby allowing the user to appropriately perceive the distance from the user to the sound source. can be done.
  • the information processing apparatus 10 outputs sound based on the output signal generated by the stereophonic processing using the set spatial resolution, and causes the user to listen to the output sound with reduced delay. be able to. As described above, according to the information processing method, it is possible to suppress the delay that may occur in the output sound, and allow the user to listen to the output sound with the suppressed delay.
  • the information processing device 10 also sets the spatial resolution in rendering processing as stereophonic processing. Therefore, according to the information processing method, it is possible to suppress the delay that may occur in the output sound.
  • each component may be configured by dedicated hardware or implemented by executing a software program suitable for each component.
  • Each component may be realized by reading and executing a software program recorded in a recording medium such as a hard disk or a semiconductor memory by a program execution unit such as a CPU or processor.
  • the software that implements the information processing apparatus and the like of the above embodiment is the following program.
  • this program acquires a stream including first position/orientation information indicating the position and orientation of a sound source and sound signals indicating the sound output by the sound source to a computer, and determines the position and orientation of the user's head.
  • second position/posture information is acquired, and the first position/posture information and the second position/posture information are used to apply the sound signal to the sound signal according to the positional relationship between the user's head and the sound source.
  • This is a program for executing an information processing method for setting spatial resolution in stereophonic sound processing.
  • the present invention can be used for information processing devices that perform stereophonic sound processing.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、音源が出力する音を示す音信号とを含むストリームを取得し(S101)、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し(S102)、第一位置姿勢情報と第二位置姿勢情報とを用いて、ユーザの頭部と音源との位置関係に応じて、音信号に施される立体音響処理における空間分解能を設定する(S103)。

Description

情報処理方法、情報処理装置、および、プログラム
 本発明は、情報処理方法、情報処理装置、および、プログラムに関する。
 音源の位置および姿勢と、聴取者であるユーザの位置および姿勢とに応じて、出力する音の信号を処理(立体音響処理ともいう)し、ユーザに立体的な音響を体験させる技術がある(特許文献1参照)。
特表2020-524420号公報
 しかしながら、立体音響処理には比較的大きな規模な演算が必要であり、その演算に要する時間によっては、出力音に遅延が生ずることがあるという問題がある。
 そこで、本発明は、出力音に生じ得る遅延を抑制する情報処理方法など装置を提供する。
 本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する情報処理方法である。
 なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本発明の情報処理方法は、出力音に生じ得る遅延を抑制することができる。
図1は、実施の形態におけるユーザと音源との位置関係の例を示す説明図である。 図2は、実施の形態における情報処理装置の機能構成を示すブロック図である。 図3は、実施の形態における立体音響処理の空間分解能の第一の説明図である。 図4は、実施の形態における立体音響処理の空間分解能の第二の説明図である。 図5は、実施の形態における立体音響処理の空間分解能の第三の説明図である。 図6は、実施の形態における立体音響処理の応答時間長の説明図である。 図7は、実施の形態における立体音響処理のパラメータの第一例を示す説明図である。 図8は、実施の形態における立体音響処理のパラメータの第二例を示す説明図である。 図9は、実施の形態における立体音響処理のパラメータの第三例を示す説明図である。 図10は、実施の形態における情報処理装置の処理を示すフロー図である。
 (本発明の基礎となった知見)
 本発明者は、「背景技術」の欄において記載した立体音響処理に関し、以下の問題が生じることを見出した。
 特許文献1に示される立体音響処理技術では、ユーザの姿勢に基づいて将来の予測姿勢情報を取得し、その予測姿勢情報を用いてメディアコンテンツを事前にレンダリングする。
 しかしながら、上記立体音響処理技術が効果を奏するのは、ユーザの姿勢の変化が比較的小さい場合、または、規則的である場合等に限られる。上記場合から逸脱する場合には、予測姿勢情報が現実のユーザの姿勢情報と整合しないので、ユーザにとっての音像の位置が適切でなくなったり、音像の位置が急激に変化したりすることがある。
 このように、立体音響処理の演算に要する時間によって出力音に遅延が生ずることがあるという問題は、特許文献1に記載の技術では解決されないことがある。
 このような問題を解決するために、本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する情報処理方法である。
 上記態様によれば、立体音響処理における空間分解能を、ユーザの頭部と音源との位置関係に応じて設定するので、立体音響処理に必要な演算の規模を調整することができる。そのため、立体音響処理に要する演算の規模が比較的大きい場合に、空間分解能を低くすることによって演算の規模を小さくし、立体音響処理に要する時間を短くし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。
 例えば、前記空間分解能の設定では、前記ユーザの頭部と前記音源との距離が大きいほど、前記空間分解能をより低く設定してもよい。
 上記態様によれば、立体音響処理における空間分解能を、ユーザの頭部と音源との距離が大きいほど低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。
 例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記空間分解能の設定では、前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記空間分解能をより高く設定してもよい。
 上記態様によれば、人間の音声についての立体音響処理における空間分解能を高く設定することで、人間の音声でない音に比べて人間の音声をより高い品質でユーザに聴取させることができる。人間の音声でない音と比較して、人間の音声の音像位置には比較的高い精度が求められることがあるので、人間の音声の音像位置の精度の向上に寄与し得る。このように、上記情報処理方法によれば、出力音に含まれる人間の音声の品質を上げながら、出力音に生じ得る遅延を抑制することができる。
 例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記空間分解能の設定では、前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記空間分解能をより低く設定してもよい。
 上記態様によれば、人間の音声でない音についての立体音響処理における空間分解能を低く設定することで、人間の音声でない音についての立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。人間の音声と比較して、人間の音声でない音の音像位置には、それほど高い精度が求められないことがあるので、人間の音声でない音の音像位置の精度を低下させることで、出力音に生じ得る遅延の抑制に寄与し得る。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。
 例えば、前記ストリームは、一以上の前記音源についての前記第一位置姿勢情報と前記音信号とを含み、前記空間分解能の設定では、一以上の前記音源の個数が多いほど、前記空間分解能をより低く設定してもよい。
 上記態様によれば、ストリームに含まれる音源の個数が多いほど、空間分解能をより低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。
 例えば、さらに、前記位置関係に応じて、前記立体音響処理における時間応答長を設定してもよい。
 上記態様によれば、立体音響処理における時間応答長を、ユーザの頭部と音源との位置関係に応じて設定するので、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザに適切に感知させながら、出力音に生じ得る遅延を抑制することができる。
 例えば、前記時間応答長の設定では、前記ユーザの頭部と前記音源との距離が大きいほど、時間応答長をより大きく設定してもよい。
 上記態様によれば、立体音響処理における時間応答長を、ユーザの頭部と音源との距離が大きいほど大きく設定することで、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザにより適切に感知させながら、出力音に生じ得る遅延を抑制することができる。
 例えば、さらに、設定した前記空間分解能を用いて前記音信号に対して前記立体音響処理を施すことで、スピーカが出力する音を示す出力用信号を生成し、生成した前記出力用信号を前記スピーカに提供することで、前記出力用信号が示す音を前記スピーカに出力させてもよい。
 上記態様によれば、設定した空間分解能を用いた立体音響処理によって生成した出力用信号に基づく音を出力してユーザに聴取させることで、遅延が抑制された出力音をユーザに聴取させることができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制し、遅延が抑制された出力音をユーザに聴取させることができる。
 例えば、前記立体音響処理は、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音源が配置された空間内で前記ユーザが聴取すべき音を生成する処理であるレンダリング処理を含み、前記空間分解能は、前記レンダリング処理における空間分解能であってもよい。
 上記態様によれば、立体音響処理としてのレンダリング処理における空間分解能を設定する。よって、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。
 また、本発明の一態様に係る情報処理装置は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する設定部とを備える情報処理装置である。
 上記態様によれば、上記情報処理方法と同様の効果を奏する。
 また、本発明の一態様に係るプログラムは、上記の情報処理方法をコンピュータに実行させるプログラムである。
 上記態様によれば、上記情報処理方法と同様の効果を奏する。
 なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態)
 本実施の形態において、出力音に生じ得る遅延を抑制する情報処理方法および情報処理装置などについて説明する。
 図1は、本実施の形態におけるユーザUと音源5との位置関係の例を示す説明図である。
 図1には、空間Sに存在しているユーザUと、ユーザUが認識している音源5が示されている。図1において、空間Sは、x軸およびy軸を含む平面として表現されているが、z軸方向の広がりも有する。以降でも同様とする。
 空間Sには、壁面または物体が配置されてもよい。壁面には天井または床も含まれる。
 情報処理装置10は、音源5が出力する音信号を含むストリームに基づいて、デジタル音響処理である立体音響処理を行うことで、ユーザUに聴取させる音信号を生成する。上記ストリームには、さらに、空間Sにおける音源5の位置および姿勢を示す位置姿勢情報が含まれている。情報処理装置10が生成した音信号は、スピーカにより音として出力され、ユーザUに聴取される。スピーカは、ユーザUに装着されるイヤホンまたはヘッドホンが備えるスピーカであることが想定されるが、これに限られない。
 音源5は、ストリームに基づいて生成された音信号を聴取したユーザUが、音源として認識する対象である、仮想的な音源(一般に音像ともいう)であり、言い換えれば、音を現実に発生している発生源ではない。なお、図1において、音源5として人間が示されているが、音源5は、人間に限られず、任意の音源であってよい。
 ユーザUは、情報処理装置10が生成した音信号に基づく音であって、スピーカから出力された音を聴取する。
 情報処理装置10が生成した音信号に基づいてスピーカから出力された音は、ユーザUの左右それぞれの耳に聴取される。ユーザUの左右それぞれの耳に聴取される音には、情報処理装置10により適切な時間差または位相差(時間差等とも記載)が設けられている。ユーザUは、左右それぞれの耳が聴取した音の時間差等に基づいて、ユーザUにとっての音源5の方向を感知する。
 また、ユーザUの左右それぞれの耳に聴取される音には、音源5から直接に到来する音(直接音と記載)に相当する音と、音源5が出力し壁面によって反射して到来する音(反射音と記載)に相当する音が、情報処理装置10により含められる。ユーザUは、聴取した音に含まれる直接音および反射音の時間間隔に基づいて、ユーザUから音源5までの距離を感知する。
 情報処理装置10が実行する立体音響処理では、上記ストリームに含まれる音信号に基づいて、直接音と反射音とがユーザUに到来するタイミング、ならびに、直接音と反射音との振幅および位相を算出し、直接音と反射音とを合成することで、スピーカから出力すべき音を示す音信号(出力用信号と記載)を生成する。立体音響処理には、比較的大きな規模の演算処理が含まれ得る。
 情報処理装置10は、上記ストリームに含まれる音信号の個数が比較的多い場合、または、立体音響処理の空間分解能が比較的高い場合、演算処理に比較的長い時間を要し、出力用信号の生成および出力が遅延し得る。出力用信号に生じ得る遅延を抑制する方策の一つは、立体音響処理の空間分解能を低下させることであるが、立体音響処理の空間分解能を低下させればユーザUが聴取する音の品質が低下し得る。このように、ユーザUが聴取する音の品質の高さと、立体音響処理に含まれる演算処理の量とは、トレードオフの関係にある。
 情報処理装置10は、ユーザUと音源5との距離を用いて立体音響処理のパラメータを調整することで、立体音響処理の処理負荷の低減に寄与する。例えば、情報処理装置10は、立体音響処理のパラメータである空間分解能を低下させることで、立体音響処理の処理負荷を低減させる。
 図2は、本実施の形態における情報処理装置10の機能構成を示すブロック図である。
 図2に示されるように、情報処理装置10は、機能部として、復号部11と、取得部12と、調整部13と、処理部14と、設定部15とを備える。情報処理装置10が備える機能部は、情報処理装置10が備えるプロセッサ(CPU(Central Processing Unit)など)(不図示)が、メモリ(不図示)を用いて所定のプログラムを実行することで実現され得る。
 復号部11は、ストリームを復号する機能部である。ストリームは、具体的には、空間Sにおける音源5の位置および姿勢を示す位置姿勢情報(第一位置姿勢情報に相当)と、音源5が出力する音を示す音信号とを含む。ストリームは、音源5が出力する音が人間の音声であるか否かを示す種別情報を含んでもよい。ここで、音声は、人間の声を意味する。
 復号部11は、ストリームを復号することで得た音信号を処理部14に提供し、また、ストリームを復号することで得た位置姿勢情報を調整部13に提供する。なお、ストリームは、情報処理装置10が外部の装置から取得したものであってもよいし、情報処理装置10が有する記憶装置に予め格納されたものであってもよい。
 ストリームは、所定の形式でエンコードされたストリームであり、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)(単に、「MPEG-H 3D Audio」ともいう)の形式でエンコードされたストリームである。
 音源5の位置および姿勢を示す位置姿勢情報は、より具体的には、音源5の3軸方向の座標(x、yおよびz)と、3軸周りの角度(ヨー角、ピッチ角およびロール角)とを含む、6自由度の情報である。音源5の位置姿勢情報によって、音源5の位置および姿勢が特定されることが可能である。なお、座標は、適当に設定される座標系における座標である。姿勢は、音源5について予め定められた方向(基準方向と記載)を示す3軸周りの角度である。基準方向は、音源5が音を出力する方向であってもよいし、その他、音源5について一意に定められる方向であればどのような方向であってもよい。
 ストリームは、一以上の音源5それぞれについて、当該音源5の位置および姿勢を示す位置姿勢情報と、当該音源5が出力する音を示す音信号とを含んでいてもよい。
 取得部12は、空間SにおけるユーザUの頭部の位置および姿勢を取得する機能部である。取得部12は、ユーザUの頭部の位置を示す情報(位置情報と記載)と、姿勢を示す情報(姿勢情報と記載)とを含む、位置姿勢情報(第二位置姿勢情報)をセンサ等により取得する。ユーザUの頭部の位置姿勢情報は、より具体的には、ユーザUの頭部の3軸方向の座標(x、yおよびz)と、3軸周りの角度(ヨー角、ピッチ角およびロール角)とを含む、6自由度の情報である。ユーザUの頭部の位置姿勢情報によって、ユーザUの頭部の位置および姿勢が特定されることが可能である。なお、座標は、音源5について定められた座標系と共通の座標系における座標である。位置は、座標系における所定の位置(例えば原点)から所定の位置関係にある位置として定められ得る。姿勢は、ユーザUの頭部が向いている方向を示す3軸周りの角度である。
 センサ等は、例えば、慣性測定ユニット(IMU:Inertial Measurement Unit)、加速度計、ジャイロスコープ、磁気センサまたはこれらの組合せであってよい。センサ等は、ユーザUの頭部に装着されることが想定され、ユーザUに装着されているイヤホンまたはヘッドホンに固定されていてもよい。
 調整部13は、処理部14が実行する立体音響処理におけるパラメータを用いて、空間SにおけるユーザUの位置姿勢情報を調整する機能部である。
 調整部13は、立体音響処理におけるパラメータである空間分解能を設定部15から取得する。そして、調整部13は、取得部12が取得したユーザUの頭部の位置情報を、空間分解能の整数倍の値のいずれかに変更することで調整する。変更の際には、調整部13は、空間分解能の整数倍である複数の値のうちから、取得部12が取得したユーザUの頭部の位置情報に最も近い値を採用してよい。調整部13は、調整後のユーザUの頭部の位置情報と、ユーザUの頭部の姿勢情報とを処理部14に提供する。
 処理部14は、復号部11が取得した音信号に対してデジタル音響処理である立体音響処理を施す機能部である。処理部14は、立体音響処理に用いる複数のフィルタを有している。フィルタは、例えば、周波数ごとに音信号の振幅および位相を調整する演算に用いられる。
 処理部14は、立体音響処理に用いるパラメータ(つまり空間分解能および時間応答長)を調整部13から取得し、取得したパラメータを用いて立体音響処理を行う。処理部14は、立体音響処理において、音源5からユーザUに到来する直接音および反射音の伝搬経路を算出し、また、直接音および反射音がユーザに到来するタイミングを算出する。また、ユーザUの頭部を中心とした角度方向の範囲ごとに、当該範囲からユーザUに到来する音(直接音および反射音)を示す信号に対して当該範囲に応じたフィルタを適用することで、ユーザUに到来する音の振幅および位相を算出する。
 設定部15は、処理部14により実行される立体音響処理のパラメータを設定する機能部である。立体音響処理のパラメータは、立体音響処理における空間分解能と時間応答長とを含み得る。
 設定部15は、空間Sにおける音源5の位置姿勢情報と、取得部12が取得したユーザUの位置姿勢情報とを用いて、ユーザUの頭部と音源5との位置関係に応じて、立体音響処理のパラメータである空間分解能を設定する。また、設定部15は、さらに、上記位置関係に応じて、立体音響処理のパラメータである時間応答長を設定してもよい。設定部15は、設定したパラメータを調整部13に提供する。
 パラメータの設定には、ユーザUと音源5との距離Dが用いられ得る。距離Dは、音源5の位置および姿勢を示すベクトル
Figure JPOXMLDOC01-appb-M000001
と、ユーザUの位置および姿勢を示すベクトル
Figure JPOXMLDOC01-appb-M000002
とを用いて、
Figure JPOXMLDOC01-appb-M000003
と表現され得る(図1参照)。
 設定部15は、空間分解能の設定において、空間SにおけるユーザUの頭部と音源5との距離Dが大きいほど、空間分解能をより低く設定してもよい。
 また、設定部15は、時間応答長の設定において、空間SにおけるユーザUの頭部と音源5との距離Dが大きいほど、時間応答長をより大きく設定してもよい。
 立体音響処理の空間分解能について、図3、図4および図5を参照しながら説明する。
 図3、図4および図5は、本実施の形態における立体音響処理の空間分解能の説明図である。
 図3に示されるように、立体音響処理の空間分解能は、ユーザUを中心とした角度方向の範囲の分解能である。
 処理部14は、立体音響処理において、空間分解能が比較的高い場合、比較的狭い角度範囲(例えば角度範囲30)ごとに、当該角度範囲からユーザUに到来する音信号に対するフィルタを適用する。一方、処理部14は、立体音響処理において、空間分解能が比較的低い場合、比較的広い角度範囲(例えば角度範囲40)ごとに、当該角度範囲からユーザUに到来する音信号に対するフィルタを適用する。
 このように、空間分解能が高いことは、角度範囲が狭いことに対応し、反対に、空間分解能が低いことは、角度範囲が広いことに対応する。角度範囲は、同一のフィルタが適用される単位に相当する。
 より具体的には、空間分解能が比較的高い場合、処理部14は、ユーザUを中心とした角度範囲31、32、33、・・・ごとに当該角度範囲に対応したフィルタを音信号に適用することで、角度範囲31、32、33、・・・それぞれからユーザUに到来する音を示す音信号を算出する(図4参照)。角度範囲31、32、33、・・・それぞれからユーザUに到来する音には、音源5からユーザUへの直接音および反射音が含まれ得る。
 また、空間分解能が比較的低い場合、処理部14は、ユーザUを中心とした角度範囲41、42、43、・・・ごとに当該角度範囲に対応したフィルタを音信号に適用することで、角度範囲41、42、43、・・・それぞれからユーザUに到来する音を示す音信号を算出する(図5参照)。角度範囲41、42、43、・・・それぞれからユーザUに到来する音には、音源5からユーザUへの直接音および反射音が含まれ得る。
 立体音響処理の時間応答長について、図6を参照しながら説明する。
 図6は、本実施の形態における立体音響処理の応答時間長の説明図である。
 図6には、立体音響処理で生成される音信号が示されている。音信号は、音源5からユーザUに到来する直接音に対応する波形51と、音源5からユーザUに到来する反射音に対応する波形52、53、54、55および56とを含んでいる。反射音に対応する波形52、53、54、55および56それぞれは、空間Sにおける音源5、ユーザUおよび壁面の位置関係によって定められる遅延時間分だけ直接音から遅延し、また、伝搬する距離および壁面による反射などにより振幅が減少している。遅延時間は、10msec~100msec程度の範囲で定められる。
 時間応答長は、上記遅延時間の大きさの度合いを示す指標である。時間応答長が長いほど、遅延時間が大きくなり、また、時間応答長が短いほど、遅延時間が小さくなる。
 なお、時間応答長は、あくまで遅延時間の大きさの指標であり、反射音に対応する波形の遅延時間そのものを示すものではない。例えば、図6では、波形51から波形55までの時間幅と、時間応答長とが概ね等しいが、これに限られず、波形51から波形54までの時間幅と時間応答長とが概ね等しい場合があってもよいし、波形51から波形56までの時間幅と時間応答長とが概ね等しい場合があってもよい。
 以降において、空間分解能および時間応答長の設定の例について、図7を参照しながら説明する。
 図7は、本実施の形態における立体音響処理のパラメータの第一例を示す説明図である。
 図7は、ユーザUと音源5との距離Dの複数の範囲それぞれに、立体音響処理のパラメータである空間分解能と時間応答長とが対応付けられた対応テーブルを示している。
 図7において、ユーザUの頭部と音源5との距離Dが大きいほど、より低い空間分解能が対応付けられている。また、ユーザUの頭部と音源5との距離Dが大きいほど、より長い時間応答長が対応付けられている。
 例えば、1m未満の距離Dが、10度の空間分解能と10msecの時間応答長とに対応付けられている。
 同様に、1m以上3m未満、3m以上20m未満、および、20m以上の距離Dが、それぞれ、30度、45度、および、90度の空間分解能と、50msec、200msec、および、1secの時間応答長とに対応付けられている。
 設定部15は、図7に示される距離Dと空間分解能との対応テーブルを保有しており、上記対応テーブルを調整部13に提供する。調整部13は、提供された上記対応テーブルを参照し、取得部12から取得したユーザUの頭部と音源5との距離Dに対応付けられた空間分解能および時間応答長を取得する。
 このようにして、設定部15は、空間SにおけるユーザUの頭部と音源5との距離Dが大きいほど、空間分解能をより低く設定し、言い換えれば、より低い空間分解能を示す値を設定する。また、設定部15は、空間SにおけるユーザUの頭部と音源5との距離Dが大きいほど、時間応答長をより大きく設定し、言い換えれば、より長い時間応答長を示す値を設定する。
 なお、設定部15は、空間分解能の設定において、音信号が示す音が人間の音声であるか否かに応じて空間分解能を変更してもよい。情報処理装置10は、音信号が示す音が人間の音声であるか否かに応じて空間分解能を変更することで、人間の音声についての立体音響処理をより精度よく行うことに寄与し得る。
 具体的には、設定部15は、空間分解能の設定において、音信号が示す音が人間の音声であることが種別情報に示されている場合に、空間分解能をより高く設定してもよく、言い換えれば、より高い空間分解能を示す値を設定してもよい。なお、設定部15は、空間分解能を設定しようとする場合に、既に空間分解能が設定されているときには、既に設定されている空間分解能よりも高い空間分解能を示す値に修正してもよい。
 また、設定部15は、空間分解能の設定において、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、空間分解能をより低く設定してもよく、言い換えれば、より低い空間分解能を示す値を設定してもよい。なお、設定部15は、空間分解能を設定しようとする場合に、既に空間分解能が設定されているときには、既に設定されている空間分解能よりも低い空間分解能を示す値に修正してもよい。
 また、設定部15は、空間分解能の設定において、ストリームに含まれる音源の個数に応じて空間分解能を変更してもよい。
 具体的には、設定部15は、空間分解能の設定において、ストリームに含まれる音源の個数が多いほど、空間分解能をより低く設定してもよく、言い換えれば、より低い空間分解能を示す値に設定してもよい。なお、設定部15は、空間分解能を設定しようとする場合に、既に空間分解能が設定されているときには、既に設定されている空間分解能よりも低い空間分解能を示す値に修正してもよい。
 図8は、本実施の形態における立体音響処理のパラメータの第二例を示す説明図である。図8は、ユーザUと音源5との距離Dについての複数の範囲それぞれに空間分解能が対応付けられた対応テーブルを示しており、図7に示されるパラメータから設定部15によって修正されたものの一例である。
 図8では、時間応答長の図示は省略されている。
 図8において、1m未満の距離Dが、5度の空間分解能に対応付けられている。
 同様に、1m以上3m未満、3m以上20m未満、および、20m以上の距離Dが、それぞれ、15度、22.5度、および、45度の空間分解能に対応付けられている。図8に示される空間分解能の値は、距離Dの各値について、図7に示される空間分解能の値の1/2倍である。言い換えれば、図8に示される空間分解能は、距離Dの各値について、図7に示される空間分解能の2倍の空間分解能を有する。
 設定部15は、例えば音信号が人間の音声であることが種別情報に示されている場合に、立体音響処理に用いる対応テーブルを、図7に示される対応テーブルから図8に示される対応テーブルに修正する。これにより、設定部15は、音信号が示す音が人間の音声であることが種別情報に示されている場合に、空間分解能をより高く設定することができる。
 図9は、本実施の形態における立体音響処理のパラメータの第三例を示す説明図である。
 図9は、ユーザUと音源5との距離Dについての複数の範囲それぞれに空間分解能が対応付けられた対応テーブルを示しており、図7に示されるパラメータから設定部15によって修正されたものである。
 図9では、図8と同様に、時間応答長の図示は省略されている。
 図9において、1m未満の距離Dが、20度の空間分解能に対応付けられている。
 同様に、1m以上3m未満、3m以上20m未満、および、20m以上の距離Dが、60度、90度、および、180度の空間分解能に対応付けられている。言い換えれば、図9に示される空間分解能の値は、距離Dの各値について、図7に示される空間分解能の値の2倍である。言い換えれば、図9に示される空間分解能は、距離Dの各値について、図7に示される空間分解能の1/2倍の空間分解能を有する。
 設定部15は、例えば音信号が人間の音声でないことが種別情報に示されている場合に、立体音響処理に用いる対応テーブルを、図7に示される対応テーブルから図9に示される対応テーブルに修正する。これにより、設定部15は、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、空間分解能をより低く設定することができる。
 図10は、本実施の形態における情報処理装置10の処理を示すフロー図である。
 図10に示されるように、ステップS101において、復号部11は、ストリームを取得する。ストリームは、音源5の位置および姿勢を示す情報(第一位置姿勢情報に相当)と、音源5が出力する音を示す音信号とを含んでいる。
 ステップS102において、取得部12は、ユーザUの頭部の位置および姿勢を示す情報(第二位置姿勢情報に相当)を取得する。
 ステップS103において、設定部15は、第一位置姿勢情報と第二位置姿勢情報とを用いて、ユーザUの頭部と音源5との位置関係に応じて、音信号に施される立体音響処理における空間分解能を設定する。
 ステップS104において、処理部14は、ステップS103で設定された空間分解能で立体音響処理を施すことで、スピーカが出力すべき音信号を生成し出力する。出力された音信号は、スピーカに伝達され、音として出力され、ユーザUに聴取されることが想定される。
 これにより、情報処理装置10は、出力音に生じ得る遅延を抑制することができる。
 以上のように、本実施の形態における情報処理装置10は、立体音響処理における空間分解能を、ユーザの頭部と音源との位置関係に応じて設定するので、立体音響処理に必要な演算の規模を調整することができる。そのため、立体音響処理に要する演算の規模が比較的大きい場合に、空間分解能を低くすることによって演算の規模を小さくし、立体音響処理に要する時間を短くし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。
 また、情報処理装置10は、立体音響処理における空間分解能を、ユーザの頭部と音源との距離が大きいほど低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。
 また、情報処理装置10は、人間の音声についての立体音響処理における空間分解能を高く設定することで、人間の音声でない音に比べて人間の音声をより高い品質でユーザに聴取させることができる。人間の音声でない音と比較して、人間の音声の音像位置には比較的高い精度が求められることがあるので、人間の音声の音像位置の精度の向上に寄与し得る。このように、上記情報処理方法によれば、出力音に含まれる人間の音声の品質を上げながら、出力音に生じ得る遅延を抑制することができる。
 また、情報処理装置10は、人間の音声でない音についての立体音響処理における空間分解能を低く設定することで、人間の音声でない音についての立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。人間の音声と比較して、人間の音声でない音の音像位置には、それほど高い精度が求められないことがあるので、人間の音声でない音の音像位置の精度を低下させることで、出力音に生じ得る遅延の抑制に寄与し得る。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。
 また、情報処理装置10は、ストリームに含まれる音源の個数が多いほど、空間分解能をより低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。
 また、情報処理装置10は、立体音響処理における時間応答長を、ユーザの頭部と音源との位置関係に応じて設定するので、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザに適切に感知させながら、出力音に生じ得る遅延を抑制することができる。
 また、情報処理装置10は、立体音響処理における時間応答長を、ユーザの頭部と音源との距離が大きいほど大きく設定することで、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザにより適切に感知させながら、出力音に生じ得る遅延を抑制することができる。
 また、情報処理装置10は、設定した空間分解能を用いた立体音響処理によって生成した出力用信号に基づく音を出力してユーザに聴取させることで、遅延が抑制された出力音をユーザに聴取させることができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制し、遅延が抑制された出力音をユーザに聴取させることができる。
 また、情報処理装置10は、立体音響処理としてのレンダリング処理における空間分解能を設定する。よって、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。
 なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の情報処理装置などを実現するソフトウェアは、次のようなプログラムである。
 すなわち、このプログラムは、コンピュータに、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する情報処理方法を実行させるプログラムである。
 以上、一つまたは複数の態様に係る情報処理装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
 本発明は、立体音響処理を行う情報処理装置に利用可能である。
  5  音源
 10  情報処理装置
 11  復号部
 12  取得部
 13  調整部
 14  処理部
 15  設定部
 30、31、32、33、40、41、42、43  角度範囲
 51、52、53、54、55、56  波形
  S  空間
  U  ユーザ

Claims (11)

  1.  音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、
     ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、
     前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する
     情報処理方法。
  2.  前記空間分解能の設定では、
     前記ユーザの頭部と前記音源との距離が大きいほど、前記空間分解能をより低く設定する
     請求項1に記載の情報処理方法。
  3.  前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
     前記空間分解能の設定では、
     前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記空間分解能をより高く設定する
     請求項1または2に記載の情報処理方法。
  4.  前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
     前記空間分解能の設定では、
     前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記空間分解能をより低く設定する
     請求項1~3のいずれか1項に記載の情報処理方法。
  5.  前記ストリームは、一以上の前記音源についての前記第一位置姿勢情報と前記音信号とを含み、
     前記空間分解能の設定では、
     一以上の前記音源の個数が多いほど、前記空間分解能をより低く設定する
     請求項1~4のいずれか1項に記載の情報処理方法。
  6.  さらに、前記位置関係に応じて、前記立体音響処理における時間応答長を設定する
     請求項1~5のいずれか1項に記載の情報処理方法。
  7.  前記時間応答長の設定では、
     前記ユーザの頭部と前記音源との距離が大きいほど、時間応答長をより大きく設定する
     請求項6に記載の情報処理方法。
  8.  さらに、
     設定した前記空間分解能を用いて前記音信号に対して前記立体音響処理を施すことで、スピーカが出力する音を示す出力用信号を生成し、
     生成した前記出力用信号を前記スピーカに提供することで、前記出力用信号が示す音を前記スピーカに出力させる
     請求項1~7のいずれか1項に記載の情報処理方法。
  9.  前記立体音響処理は、
     前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音源が配置された空間内で前記ユーザが聴取すべき音を生成する処理であるレンダリング処理を含み、
     前記空間分解能は、前記レンダリング処理における空間分解能である
     請求項1~8のいずれか1項に記載の情報処理方法。
  10.  音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、
     ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、
     前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する設定部とを備える
     情報処理装置。
  11.  請求項1~9のいずれか1項に記載の情報処理方法をコンピュータに実行させるプログラム。
PCT/JP2022/003588 2021-03-16 2022-01-31 情報処理方法、情報処理装置、および、プログラム WO2022196135A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2023506833A JPWO2022196135A1 (ja) 2021-03-16 2022-01-31
KR1020237030572A KR20230157331A (ko) 2021-03-16 2022-01-31 정보 처리 방법, 정보 처리 장치, 및, 프로그램
EP22770897.1A EP4311272A1 (en) 2021-03-16 2022-01-31 Information processing method, information processing device, and program
CN202280020492.3A CN116965064A (zh) 2021-03-16 2022-01-31 信息处理方法、信息处理装置、以及程序
US18/243,199 US20230421988A1 (en) 2021-03-16 2023-09-07 Information processing method, information processing device, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163161499P 2021-03-16 2021-03-16
US63/161,499 2021-03-16
JP2021-194053 2021-11-30
JP2021194053 2021-11-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/243,199 Continuation US20230421988A1 (en) 2021-03-16 2023-09-07 Information processing method, information processing device, and recording medium

Publications (1)

Publication Number Publication Date
WO2022196135A1 true WO2022196135A1 (ja) 2022-09-22

Family

ID=83320333

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/003588 WO2022196135A1 (ja) 2021-03-16 2022-01-31 情報処理方法、情報処理装置、および、プログラム

Country Status (5)

Country Link
US (1) US20230421988A1 (ja)
EP (1) EP4311272A1 (ja)
JP (1) JPWO2022196135A1 (ja)
KR (1) KR20230157331A (ja)
WO (1) WO2022196135A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050271212A1 (en) * 2002-07-02 2005-12-08 Thales Sound source spatialization system
JP2017175356A (ja) * 2016-03-23 2017-09-28 ヤマハ株式会社 音響処理装置およびプログラム
KR20190060464A (ko) * 2017-11-24 2019-06-03 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110313187B (zh) 2017-06-15 2022-06-07 杜比国际公司 处理媒体内容以供第一装置再现的方法、系统和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050271212A1 (en) * 2002-07-02 2005-12-08 Thales Sound source spatialization system
JP2017175356A (ja) * 2016-03-23 2017-09-28 ヤマハ株式会社 音響処理装置およびプログラム
KR20190060464A (ko) * 2017-11-24 2019-06-03 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
KR20230157331A (ko) 2023-11-16
EP4311272A1 (en) 2024-01-24
US20230421988A1 (en) 2023-12-28
JPWO2022196135A1 (ja) 2022-09-22

Similar Documents

Publication Publication Date Title
US10812925B2 (en) Audio processing device and method therefor
US10972856B2 (en) Audio processing method and audio processing apparatus
EP4214535A2 (en) Methods and systems for determining position and orientation of a device using acoustic beacons
WO2022196135A1 (ja) 情報処理方法、情報処理装置、および、プログラム
WO2022219881A1 (ja) 情報処理方法、情報処理装置、および、プログラム
CN116965064A (zh) 信息处理方法、信息处理装置、以及程序
JP6303519B2 (ja) 音響再生装置および音場補正プログラム
JP2011188444A (ja) ヘッドトラッキング装置および制御プログラム
CN117121511A (zh) 信息处理方法、信息处理装置、以及程序
JP2006086756A (ja) 両耳インパルス応答推定装置、両耳インパルス応答推定方法、移動音生成装置、移動音生成方法
JP2019068123A (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22770897

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023506833

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280020492.3

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022770897

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022770897

Country of ref document: EP

Effective date: 20231016