WO2023017622A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2023017622A1
WO2023017622A1 PCT/JP2022/006051 JP2022006051W WO2023017622A1 WO 2023017622 A1 WO2023017622 A1 WO 2023017622A1 JP 2022006051 W JP2022006051 W JP 2022006051W WO 2023017622 A1 WO2023017622 A1 WO 2023017622A1
Authority
WO
WIPO (PCT)
Prior art keywords
delay
unit
reproduction
user
playback
Prior art date
Application number
PCT/JP2022/006051
Other languages
English (en)
French (fr)
Inventor
慧 高橋
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023541203A priority Critical patent/JPWO2023017622A1/ja
Publication of WO2023017622A1 publication Critical patent/WO2023017622A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 does not consider changes in the delay time. Therefore, it is not possible to cope with the case where the delay time changes.
  • One object of the present disclosure is to propose an information processing device, an information processing method, and a program capable of performing optimal delay compensation corresponding to changes in delay time.
  • a reproduction system having a sensor unit that senses the position of an observation target and a reproduction unit that reproduces a reproduction signal generated based on sensing data of the sensor unit.
  • the information processing apparatus includes a control unit that predicts a total delay amount that may occur before reproduction by a reproduction unit, compensates for the predicted total delay amount, and generates the reproduction signal.
  • a reproduction system having a sensor unit that senses the position of an observation target and a reproduction unit that reproduces a reproduction signal generated based on sensing data of the sensor unit.
  • the information processing method performs a process of predicting a total delay amount that may occur before reproduction by a reproduction unit, and compensating for the delay of the predicted total delay amount to generate the reproduction signal.
  • a reproduction system having a sensor unit that senses the position of an observation target and a reproduction unit that reproduces a reproduction signal generated based on sensing data of the sensor unit.
  • FIG. 1 is a flow chart showing the flow of basic processing of sound image localization.
  • FIG. 2 is a diagram showing an example of measurement results of the user's head position.
  • FIG. 3 is a diagram for explaining generation of a reproduction signal according to the direction of the user.
  • FIG. 4 is a diagram for explaining the delay time.
  • FIG. 5 is a diagram illustrating a configuration example of a playback system according to one embodiment.
  • FIG. 6 is a diagram for explaining delay compensation by prediction.
  • FIG. 7 is a sequence diagram showing the flow of processing in the playback system.
  • FIG. 8 is a diagram for explaining changes in delay time.
  • FIG. 9 is a flowchart showing the flow of delay compensation processing.
  • 10A to 10D are diagrams showing configuration examples of tables referred to when obtaining the delay amount.
  • FIG. 11 is a diagram for explaining the error of the prediction algorithm.
  • FIG. 12 is a diagram showing a configuration example of another playback system.
  • FIG. 13 is a diagram showing a configuration example of still another reproduction system.
  • FIG. 14 is a diagram showing a configuration example of still another playback system.
  • FIG. 15 is a diagram showing a configuration example of still another playback system.
  • FIG. 16 is a diagram showing a configuration example of yet another reproduction system.
  • FIG. 17 is a diagram illustrating a hardware configuration example of a computer.
  • FIG. 18 is a diagram showing a configuration example of a playback system in a modified example.
  • FIG. 19 is a diagram schematically showing the flow of processing in the playback system in the modified example.
  • FIG. 20 is a diagram for explaining sound image localization in the modified example.
  • Fig. 1 is an example of the basic processing flow of sound image localization.
  • the movement of the user's head is measured and acquired by a sensor such as an IMU (step S101).
  • a sensor such as an IMU
  • the current head position (specifically, the absolute angle) P_t1 of the user is calculated using the measurement result (step S102).
  • FIG. 2 shows an example of the measurement result of the user's head position.
  • the horizontal axis represents time
  • the vertical axis represents the head rotation angle (degrees). Note that 0 degrees indicates that the user is facing forward (facing the virtual sound source position), and -90 degrees indicates that the user is facing left. In other words, in the case of this figure, the user is changing the orientation of the head from forward to left.
  • the current head position P_t1 is obtained by measuring the head rotation angle at time T (current time).
  • a 3D audio reproduction signal corresponding to the position P_t1 is generated (step S103), and the generated reproduction signal is reproduced to output sound (step S103). S104).
  • the reproduction signal is generated so that the sound is output in a well-balanced manner from both the left and right sides of the headphones. .
  • the movement is detected and a reproduction signal is generated so that the sound is output mainly from the R side (right ear side) of the headphone.
  • this method has the following problems. Processing time and communication time are required from the moment the user's head moves to the time the sound localized by the sound image is reproduced and output. This processing time and communication time together are called delay time. When this delay time exceeds a certain value (for example, 100 ms or more), the calculation of the position of the sound image deviates from the position of the user, and the user cannot recognize that the source of the sound has stopped.
  • a certain value for example, 100 ms or more
  • the present disclosure proposes techniques for compensating for such delay deviations.
  • FIG. 5 is a diagram showing a configuration example of a reproduction system (reproduction system 1) according to one embodiment.
  • the playback system 1 is a system that realizes virtual experiences such as auditory AR (Augmented Reality) and VR (Virtual Reality).
  • the reproduction system 1 has a reproduction device 2 , a server device 3 and a terminal device 4 .
  • the reproduction system 1 reproduces content (for example, AR content) by the terminal device 4 executing an application.
  • the playback device 2 senses the orientation of the user's head, and the terminal device 4 generates a playback signal.
  • the playback device 2 is a device that outputs sound and makes the user perceive it.
  • the playback device 2 is specifically composed of headphones that can be worn on the user's head.
  • the playback device 2 may be composed of other devices capable of outputting audio, such as earphones and a head-mounted display. It may also consist of a headset (headphones with a microphone, earphones).
  • the reproducing device 2 has a sensor section 21 , a reproducing section 22 , a transmitting section 23 and a receiving section 24 .
  • the sensor unit 21 senses the head position (specifically, head orientation) of the user to be observed, and outputs the sensor value (sensing data) obtained thereby to the transmission unit 23 .
  • the sensor unit 21 includes a sensor group including an acceleration sensor, a gyro sensor, and a geomagnetic sensor, and a sensor value receiving module that receives sensor values output by each sensor.
  • the configuration of the sensor unit 21 is not limited to this.
  • the number of sensors constituting the sensor unit 21 may be one or more, and a configuration using a single type or one sensor may be used.
  • sensors may be provided on both ears of the headphone.
  • the sensor type may be a camera, a ToF (Time of Flight) sensor, a positioning sensor (for example, GPS), or the like.
  • the sensor unit 21 may recognize motion using a plurality of cameras including a smartphone and a network camera (for example, a WEB camera).
  • the sensor unit 21 may be configured by a motion capture system or the like that estimates an angle by attaching a marker to the user's head.
  • the sensor unit 21 may be configured with a tracker such as OptiTrack (registered trademark). Moreover, you may combine these.
  • the type, number, and positions of the sensors forming the sensor section 21 can be determined as appropriate.
  • the reproduction unit 22 is composed of, for example, a pair of left and right speaker units for the left ear and the right ear, reproduces the reproduction signal input from the reception unit 24, and outputs sound based on the reproduction signal.
  • the reproduced signal is generated by the terminal device 4 based on the sensor value of the sensor section 21 .
  • the transmitting unit 23 and the receiving unit 24 are composed of, for example, communication modules capable of communicating with the terminal device 4 .
  • Bluetooth registered trademark
  • the wireless communication system may be Wi-Fi (registered trademark), WUSB (Wireless USB), LTE (Long Term Evolution), 5G (5th generation mobile communication system), or the like.
  • the transmission unit 23 transmits sensor values input from the sensor unit 21 to the terminal device 4 .
  • the receiving unit 24 receives a reproduced signal transmitted from the terminal device 4 and outputs the received reproduced signal to the reproducing unit 22 .
  • the server device 3 is provided on a network such as the Internet, for example, and functions as a distribution server that distributes content.
  • the server device 3 has a content distribution unit 31 and distributes content to the terminal device 4 as appropriate.
  • the server device 3 may be a cloud server.
  • the terminal device 4 is a device that generates a reproduced signal to be transmitted to the reproducing device 2 . Specifically, the terminal device 4 calculates and predicts the position of the user's head after the above-described delay time has elapsed based on the sensor values, and performs sound image localization processing (see FIG. 3) according to the predicted head position. A reproduction signal is generated by performing the sound image localization processing described above on the audio signal.
  • the terminal device 4 is specifically composed of a smartphone. Note that the terminal device 4 may be composed of other computer equipment such as a tablet terminal, a personal computer, and a game machine.
  • the terminal device 4 has a receiver 41 , a transmitter 42 , a position calculator 43 , a delay compensator 44 , a sound source position generator 45 and a reproduced signal generator 46 .
  • the receiving unit 41 and the transmitting unit 42 are configured by, for example, a communication module capable of communicating with the playback device 2.
  • a communication module capable of communicating with the playback device 2.
  • the same ones as those described above for the transmitting section 23 and the receiving section 24 can be used.
  • Bluetooth is used.
  • the receiving unit 41 receives sensor values transmitted from the transmitting unit 23 of the reproducing device 2 and outputs the received sensor values to the position calculating unit 43 .
  • the transmission unit 42 transmits the reproduction signal input from the reproduction signal generation unit 46 to the reproduction device 2 .
  • the position calculation unit 43 is composed of, for example, a head orientation calculation module, and calculates the position of the user's head. Specifically, the position calculator 43 calculates the current head position of the user using the sensor values input from the receiver 41, and calculates a prediction function for calculating the future head position. Since the motion of the user's head is continuous, future motion can be predicted from the motion over time. Therefore, the position calculation unit 43 stores, for example, the movement of the user's head in time series, performs regression analysis from the history, and calculates a prediction function.
  • the delay compensating unit 44 is composed of, for example, a delay compensating module, and calculates and predicts the delay-compensated head position using the calculation results (current head position and prediction function) of the position calculating unit 43, and predicts the head position.
  • the head position is output to the reproduction signal generator 46 .
  • FIG. 6 is a diagram for explaining delay compensation by prediction.
  • the position calculator 43 calculates the current head position P_t0 and calculates the position prediction function P(t) from the head position history.
  • the delay compensator 44 uses the position P_t0 and the prediction function P(t) to calculate and predict the head position after the delay time T_delay, specifically, the position P(t0+T_delay). This predicted head position approximately matches (including perfect match) the actual head position P_t1.
  • the sound source position generation unit 45 is composed of, for example, a module that generates sound source positions from content.
  • the sound source position generator 45 acquires content sent from the server device 3 , generates a sound source position from the acquired content, and outputs the generated sound source position to the reproduction signal generator 46 .
  • the reproduction signal generation unit 46 is composed of, for example, a reproduction signal generation module.
  • the reproduction signal generation unit 46 generates a 3D audio reproduction signal based on the head position input from the delay compensation unit 44 and the sound source position input from the sound source position generation unit 45, and transmits the generated reproduction signal. Output to unit 42 . That is, the reproduction signal generator 46 generates a reproduction signal according to the direction of the user's head with respect to the position of the sound source. Specifically, it is generated as described with reference to FIG.
  • the reproduction signal generation unit 46 uses virtual surround technology to generate 3D audio reproduction signals.
  • VPT virtual surround technology
  • VPT Virtualphones Technology
  • HRTF head-related transfer function
  • the reproduction system 1 having the above configuration, it is possible to generate and reproduce a reproduction signal corresponding to the head position that compensates for the deviation due to the delay described above, so that the user can have a good sound image localization experience. .
  • FIG. 7 is a sequence diagram showing an example of the flow of processing in the reproduction system 1.
  • the playback device 2 measures the movement of the user's head (step S1). That is, the sensor unit 21 outputs sensor values obtained by sensing to the transmission unit 23 , and the transmission unit 23 transmits the sensor values to the terminal device 4 .
  • the terminal device 4 calculates the current head position P_t0 of the user (step S2). That is, the receiving unit 41 receives the sensor values transmitted from the transmitting unit 23 of the reproducing device 2 and outputs them to the position calculating unit 43 . Then, the position calculator 43 uses the sensor values to calculate the current head position P_t0 of the user, and outputs the calculation result to the delay compensator 44 .
  • the terminal device 4 calculates the prediction function P(t) (step S3). Specifically, the position calculator 43 calculates the prediction function P(t) and outputs the calculation result to the delay compensator 44 .
  • the terminal device 4 predicts the position of the user's head compensated for the delay time T_delay (step S4). More specifically, the delay compensator 44 calculates and predicts the head position compensated for the delay time T_delay using the calculation result of the position calculator 43 , and outputs the result to the reproduced signal generator 46 .
  • the server device 3 distributes the content to the terminal device 4 (step S5).
  • the content distribution unit 31 appropriately distributes the content to the terminal device 4 according to predetermined conditions such as the user's position.
  • a reproduction signal corresponding to the content is generated according to the position predicted by the terminal device 4 (step S6). That is, the sound source position generator 45 generates a sound source position from the content sent from the server device 3 and outputs the generated sound source position to the reproduction signal generator 46 . Subsequently, the reproduction signal generation unit 46 generates a reproduction signal based on the head position input from the delay compensation unit 44 and the sound source position input from the sound source position generation unit 45, and transmits the generated reproduction signal to the transmission unit 42. output to Then, the transmission unit 42 transmits the reproduction signal to the reproduction device 2 .
  • the reproduction device 2 reproduces the reproduction signal and outputs sound (step S7). More specifically, the receiving section 24 receives the reproduced signal transmitted from the terminal device 4 and outputs it to the reproducing section 22 . Then, the reproduction unit 22 reproduces the reproduction signal and outputs sound. In this way, by predicting the future head position of the user after the delay time has passed and reproducing the sound corresponding to that position, the user can have a good sound image localization experience.
  • the delay time varies depending on the system configuration, radio wave conditions, processing to be executed, etc.
  • the playback device 2 and the terminal device 4 are connected wirelessly (eg, Bluetooth)
  • the time required for the signal from the playback device 2 to reach the terminal device 4 changes depending on the radio wave conditions.
  • the calculation time for generating a 3D audio reproduction signal also changes depending on the number of sound images.
  • FIG. 8 is a diagram for explaining changes in delay time.
  • the delay can be decomposed into the following five elements.
  • Delay that occurs when acquiring sensor values (delay A) 2. Delay that occurs when communicating sensor values (delay B) 3. Delay (delay C) that occurs during playback signal generation 4. Delay (delay D) occurring during playback signal communication 5. Delay that occurs during playback (delay E)
  • Delays A and E are delays specific to the playback device 2
  • delays B and D are delays that vary depending on the communication method, radio wave conditions, etc.
  • delay C is the number of sound sources to be played and the type of sound (specifically, is a delay that varies depending on processing contents such as speech content, music content, etc.
  • each delay time is not constant and changes depending on the configuration, conditions, circumstances, etc., so it is necessary to change the delay compensation time accordingly. Also, there may be cases where it is difficult to predict the delay compensation time. Therefore, the delay compensator 44 described above predicts the delay time from the connected device, profile, etc., and sets the optimum predicted time. Specifically, the delay compensator 44 sets an optimum delay compensation time through the following delay compensation processing, and calculates the head direction according to the set delay compensation time.
  • FIG. 9 is a flowchart showing the flow of delay compensation processing.
  • the delay compensator 44 acquires state information representing the current state of the reproduction system 1 (step S11). Specifically, the delay compensator 44 acquires information that enables each of the above-described delays A to E to be determined.
  • the information for determining the delays A and E specific to the apparatus described above includes the model name of the apparatus (which may include the manufacturer name), information specifying the model, and the like.
  • the state information includes information about the models of the reproducing device having the sensor unit 21 and the reproducing unit 22 and the terminal device 4 that generates the reproduced signal.
  • information for determining delays B and D related to communication specifically includes information on elements involved in communication delays (for example, connection profile, communication buffer size, connection status, etc.).
  • the connection status information is, for example, communication delay information from a communication API (Application Programming Interface), packet retransmission rate, communication bit rate, and the like.
  • the state information includes information about wireless communication settings when wireless communication is performed between the sensor unit 21 and the reproducing unit 22 .
  • Information for determining the delay C includes, for example, information specifying the processing details such as content type, content name, and the number of sound sources.
  • the state information contains information about the content.
  • the delay compensator 44 acquires setting information (a table in this example) representing preset delay amounts (delay times) in each state of the reproduction system 1 . Then, the delay amount of the current state of the reproduction system 1 represented by the state information is read from the setting information, and the read delay amount is used to detect the state of the reproduction system 1 from sensing by the sensor unit 21 that changes according to the state of the reproduction system 1 to the reproduction unit. 22 calculates and predicts the total amount of delay Td that may occur before reproduction by 22 (step S12). Specifically, the delay amount corresponding to each state information is read from the table, and the total delay amount Td is calculated.
  • setting information a table in this example
  • the delay amount of the current state of the reproduction system 1 represented by the state information is read from the setting information, and the read delay amount is used to detect the state of the reproduction system 1 from sensing by the sensor unit 21 that changes according to the state of the reproduction system 1 to the reproduction unit. 22 calculates and predicts the total amount of delay Td that may occur before reproduction by 22 (step
  • FIG. 10 shows a configuration example of a table referred to when obtaining the delay amount Td.
  • FIG. 10A is a configuration example of a table for reading the delay amounts of delays A and E.
  • the models of the playback device 2 and the terminal device 4 (for example, headphones A) and the delay amounts of processing delays in devices of that model are shown in FIG. is associated with.
  • FIG. 10B is a configuration example of a table for reading delay amounts of delays B and D, in which wireless connection profiles are associated with transmission delay amounts thereof.
  • Classic Audio is an existing standard for Bluetooth audio signal transmission
  • BLE (Bluetooth Low Energy) Audio is a newer standard than the existing Bluetooth audio signal transmission standard.
  • FIG. 10C is a configuration example of a table for reading the delay amount of delay C.
  • the type of content to be played back for example, content A
  • the time required for sound generation processing in that content (delay amount due to processing) are shown in FIG. is associated with.
  • FIG. 10D is a configuration example in which the delay amount Td is calculated using one table, and the wireless connection profile is associated with the delay amount Td.
  • the delay amount Td may be calculated by reading one table.
  • the delay compensator 44 refers to such a table and adds all the delay amounts of the delays A to E described above to obtain the delay amount (predicted delay time) Td. If it is effective, it may be calculated by summing only a part. It should be noted that the delay amounts in the table are obtained and stored in advance by prior measurement or the like.
  • each delay amount is not limited to being obtained by referring to a table.
  • the playback device 2 actually reproduces an audio signal to output sound
  • the microphone of the terminal device 4 specifically, the microphone of a smartphone
  • the delay amount Td may be predicted based on a value actually measured in advance.
  • each delay amount may be obtained by reading out the setting value of the module from the storage location, for example. Further, each delay amount may be acquired by appropriately combining these.
  • a table may be referred to for some delay amounts, and some delay amounts may be obtained by reading module setting values. If the device is not registered in the table in advance and the delay amount cannot be obtained, for example, the default delay amount (default setting value) can be used, or the delay amount can be calculated as zero. You may
  • the calculation timing of the delay amount Td may be before the reproduction signal is generated. For example, it may be performed in advance when the playback device 2 and the terminal device 4 are paired, or may be performed at the timing when the application is activated.
  • the delay compensation unit 44 determines whether or not the user's motion is difficult to predict (step S13). It is difficult to predict when the user is moving vigorously, and it is difficult for the user to perceive the localization of the sound. This is because the prediction function can reproduce the actual behavior well when the user's movement frequency is low, but when the user moves vigorously, i.e., when the user's movement has many high-frequency components, the prediction function and the actual This is because the difference in the behavior of Also, when the delay time is long (for example, 1 second), prediction is difficult and the effect of compensation is reduced.
  • the delay compensator 44 determines whether the user's movement is rapid and whether the delay time (delay amount Td) is longer than a predetermined time (for example, 1 second) to determine whether prediction is difficult. determine whether In other words, if the user's movement is not violent and the delay time is within a predetermined time, it is determined that the prediction is not difficult. is difficult to predict.
  • a predetermined time for example, 1 second
  • Whether the user moves vigorously can be determined, for example, by the following calculation. If a high-pass filter (HPF) is applied to the position vector (x, y, z) and the norm is calculated, the high frequency components of the position change can be found. This value is integrated for the past t seconds, and if the value is greater than or equal to a predetermined threshold, it is considered that there is vigorous movement. Note that the method for determining that the user's movement is rapid is not limited to this. For example, the integral of the position, that is, the number of times the sign of the angular velocity has reversed in the past t seconds may be examined, and if the number of times is equal to or greater than a predetermined threshold, it may be considered that there is violent movement.
  • HPF high-pass filter
  • the prediction result of the position and the actual measurement value may be compared, the deviation of the prediction value for the past t seconds may be integrated, and if it is equal to or greater than a predetermined threshold, the movement may be regarded as vigorous. Moreover, you may determine by combining these.
  • predictions are often unsuccessful for users who tend to move rapidly. Therefore, for example, a user may be specified, and it may be determined that prediction is difficult when the user is determined to be a user who tends to move rapidly. This makes it possible to simplify the determination process.
  • step S14 the delay compensator 44 handles the prediction difficulty (step S14).
  • prediction may be turned off (delay compensation is not performed), or when multiple sensors are used as in this embodiment, the sensors used may be changed.
  • delay compensation may be performed by shortening the prediction amount so that the time is shorter than the delay amount Td (for example, delay compensation of 150 ms for 300 ms), or prediction is performed only up to a predetermined position. Prediction restrictions may be applied as follows.
  • the buffer size may be adjusted to reduce system-side delay.
  • the parameters of sound image localization may be changed or a filter effect may be applied to make it difficult to notice the delay.
  • the Doppler effect may be simulated. If the delay compensation is imperfect, such as no delay compensation, the sound effect or intensity may be adjusted to obscure the sense of position. Also, these correspondences may be combined. By these correspondences, it is possible to generate an optimum reproduction signal.
  • the accuracy and speed of processing vary depending on the types, number, or positions of the sensors used.
  • gyro sensors are fast, but less accurate for obtaining absolute angles.
  • geomagnetic sensors are highly accurate in acquiring absolute angles outdoors, but are slow.
  • the accuracy is higher than in the case of providing only one sensor, but communication overhead occurs.
  • the maximum delay amount Tmax is set for the sensor. Then, for sensors whose delay amount is equal to or less than the maximum delay amount Tmax, the time stamps are compared, and delay compensation processing is performed according to the sensor with the latest time. On the other hand, when the delay amount exceeds the maximum delay amount Tmax, or when the accuracy and reliability of the sensor are lower than the predetermined set values, delay compensation is performed without using the sensor. This makes it possible, for example, not to use geomagnetic sensors with long delays and not to use cameras with long communication delays for recognition. By doing so, it is possible to prevent the delay amount Td from increasing, and to solve the difficult-to-predict state. Also, the sensors may be switched with emphasis on accuracy and reliability. In other words, when the user moves rapidly, the sensor may be switched to use a sensor with high accuracy. In this way, the sensors may be switched as needed.
  • FIG. 11 is a diagram for explaining the error of the prediction algorithm. As shown, the prediction algorithm is able to predict the actual future position with little error for short-term predictions. However, when the prediction time, that is, the delay amount Td is long, or when the user's movement is large as described above, the error is more likely to increase (overshoot).
  • the human head has a limited rotation angle, the angle that can be moved in a predicted time is limited (for example, the limit value is 30 degrees for 300 ms). Therefore, a value smaller than this angle is set as the upper limit, and prediction is terminated at the upper limit when the predicted amount exceeds this value. That is, when the total delay amount Td exceeds the preset upper limit of the predicted amount, the delay is compensated only up to the upper limit of the predicted amount. Thereby, appropriate prediction can be performed efficiently.
  • the prediction exceeding 90 degrees is set to 90 degrees. In this way, by setting the upper limit of the prediction amount to the amount until the user's position faces the position where the sound image is localized (sound source position), appropriate prediction can be performed efficiently.
  • the delay compensator 44 determines whether or not the delay amount Td is greater than the predetermined threshold value T0 (step S15).
  • the delay amount Td is a small value (for example, 20 ms or less), humans cannot perceive it. Therefore, this imperceptible value is set as the threshold value T0.
  • step S15 If it is determined in step S15 that the delay amount Td is smaller than the threshold value T0 (NO), the process ends without performing delay compensation. This can simplify processing when delay compensation is not effective.
  • step S15 if it is determined in step S15 that the delay amount is greater than the threshold (YES), delay compensation is performed for the time of the delay amount Td (step S16), and the process ends.
  • the delay compensation time may be set to a value smaller than the delay amount Td. For example, considering the human perception range described above, it may be set to be smaller than the delay amount Td within a range of up to 20 ms.
  • delay compensation can be performed by appropriately setting the amount of delay Td. You can experience a comfortable sound image localization.
  • FIG. 12 is a diagram showing a configuration example of another reproduction system (reproduction system 1A).
  • the reproduction system 1A has a reproduction device 2A, a server device 3 and a terminal device 4A.
  • the playback device 2A is a device that outputs sound and makes the user perceive it.
  • the playback device 2A has a right playback device 25 for the right ear and a left playback device 27 for the left ear, which are separate structures.
  • the playback device 2A is composed of earphones (for example, inner-type earphones) that can be worn on the user's head.
  • the right playback device 25 is worn on the user's right ear, and has a sensor section 21, a playback section 22A, a transmission section 23, a reception section 24, and a left/right communication transmission section 26.
  • the reproducing unit 22A is configured by, for example, a speaker unit for the right ear.
  • the reproduction unit 22A reproduces the reproduction signal input from the reception unit 24 and outputs a sound for the right ear based on the reproduction signal.
  • the receiving section 24 receives the reproduced signal transmitted from the terminal device 4 and outputs the received reproduced signal to the reproducing section 22A and the left/right communication transmitting section 26 .
  • the left and right communication transmission unit 26 is composed of a communication module capable of communicating with the left playback device 27, for example.
  • a communication module capable of communicating with the left playback device 27, for example.
  • Bluetooth is used as the communication method. It should be noted that other communication schemes may be used as in the communication between the transmitting section 23 and the receiving section 41 described above.
  • the left/right communication transmitting section 26 specifically transmits the reproduction signal input from the receiving section 24 to the left reproducing device 27 .
  • the left playback device 27 is worn on the user's left ear, and has a playback section 28 and a left and right communication reception section 29 .
  • the reproducing unit 28 is configured by, for example, a speaker unit for the left ear.
  • the reproduction unit 28 reproduces the reproduction signal input from the left/right communication reception unit 29 and outputs a sound for the left ear based on the reproduction signal.
  • the left and right communication reception unit 29 is composed of a communication module capable of communicating with the right playback device 25, for example.
  • a communication method for example, Bluetooth is used as described above.
  • the left/right communication receiving section 29 receives a reproduced signal transmitted from the left/right communication transmitting section 26 of the right reproducing device 25 and outputs the received reproduced signal to the reproducing section 28 .
  • the terminal device 4A is a device that generates a reproduction signal to be transmitted to the reproduction device 2A.
  • 4 A of terminal devices are specifically, comprised by the smart phone.
  • the terminal device 4A has a receiver 41, a transmitter 42, a position calculator 43, a delay compensator 44A, a sound source position generator 45 and a reproduced signal generator .
  • the delay compensator 44A is composed of, for example, a delay compensation module, and calculates a delay-compensated head position using the calculation result of the position calculator 43 (calculated in the same manner as the delay compensator 44 described above) to predict. , outputs the predicted head position to the reproduction signal generator 46 .
  • the reproducing apparatus 2A performs the left-right communication by the left-right communication transmitting section 26 and the left-right communication receiving section 29, so that the reproduction signal can be produced more efficiently than in the case of the configuration of the reproducing system 1 shown in FIG. Increased transmission delay. Therefore, the delay compensator 44A also adds up the increasing delay amount to calculate the delay amount Td of the system. As a result, optimum delay compensation can be similarly performed even in the reproduction system 1A using the reproduction device 2A having the left and right separated configuration.
  • FIG. 13 is a diagram showing a configuration example of still another reproduction system (reproduction system 1B).
  • the reproduction system 1B has a reproduction device 2B, a server device 3 and a terminal device 4B.
  • the terminal device 4B both senses the orientation of the user's head and generates a reproduction signal.
  • the playback device 2B is a device that outputs sound and makes the user perceive it.
  • the playback device 2B is specifically composed of headphones.
  • the reproducing device 2 has a reproducing section 22 and a receiving section 24 .
  • the terminal device 4B is a device that generates a reproduced signal to be transmitted to the reproducing device 2B.
  • the terminal device 4B is specifically composed of a smart phone.
  • the terminal device 4B has a sensor section 21B, a receiving section 41, a transmitting section 42, a position calculating section 43, a delay compensating section 44B, a sound source position generating section 45, and a reproduced signal generating section .
  • the sensor unit 21B has the same configuration as the sensor unit 21 described above, and is composed of, for example, a built-in sensor of a smartphone.
  • a smartphone is used by holding it in the hand, placing it on the head, hanging it around the neck, or putting it in a pocket so that the screen can be seen. can be measured. Therefore, the orientation of the head can be estimated from the orientation of the body.
  • the sensor unit 21 ⁇ /b>B senses the user's body position (orientation) and outputs the sensor value thus obtained to the position calculation unit 43 .
  • the delay compensating unit 44B is composed of, for example, a delay compensating module, and calculates a delay-compensated head position using the calculation result of the position calculating unit 43 (calculated in the same manner as the delay compensating unit 44 described above) to predict. , outputs the predicted head position to the reproduction signal generator 46 .
  • the delay compensator 44B calculates the delay amount Td of the system without considering this transmission delay. As a result, even in the reproduction system 1B using the reproduction device 2B that does not have the sensor section 21, the optimum delay compensation can be similarly performed.
  • FIG. 14 is a diagram showing a configuration example of still another reproduction system (reproduction system 1C).
  • the reproduction system 1C has a reproduction device 2 and a server device 3C. Specifically, the reproduction system 1C reproduces content by the server device 3C executing an application.
  • the playback device 2 senses the orientation of the user's head, and the server device 3C generates a playback signal. That is, the reproducing device 2 transmits sensor values to the server device 3C and receives and reproduces the reproduced signal transmitted from the server device 3C.
  • This reproduced signal is, for example, streaming data.
  • cellular communication such as LTE and 5G, Wi-Fi, and the like are used.
  • the server device 3C is provided on a network such as the Internet, for example, and functions as a distribution server that distributes content.
  • the server device 3C has a content distribution section 31, a reception section 41, a transmission section 42, a position calculation section 43, a delay compensation section 44, a sound source position generation section 45 and a reproduction signal generation section .
  • content is provided directly from the content distribution unit 31 to the sound source position generation unit 45 .
  • optimum delay compensation can be similarly performed.
  • FIG. 15 is a diagram showing a configuration example of still another reproduction system (reproduction system 1D).
  • a playback system 1D has a playback device 2D and a server device 3 .
  • the server device 3 is, for example, a cloud server.
  • the reproduction system 1D reproduces content by the reproduction device 2D executing an application.
  • the playback device 2D senses the orientation of the user's head and generates a playback signal.
  • the playback device 2D senses the orientation of the head and applies playback signal generation processing to the data (content) received from the cloud.
  • the playback device 2D is a device that outputs sound and makes the user perceive it.
  • the playback device 2D has a right ear playback device 25D and a left ear playback device 27 that are separate structures.
  • the playback device 2D is specifically composed of earphones that can be worn on the user's head.
  • the right reproducing device 25D is worn on the right ear of the user, and includes the sensor section 21, the reproducing section 22A, the left and right communication transmitting section 26, the position calculating section 43, the delay compensating section 44D, the sound source position generating section 45, and the reproduced signal. It has a generator 46 .
  • sensor values are directly output from the sensor section 21 to the position calculation section 43 .
  • a reproduced signal is directly output from the reproduced signal generator 46 to the reproducer 22A and the left/right communication transmitter 26 .
  • the delay compensator 44D is composed of, for example, a delay compensation module, and calculates a delay-compensated head position using the calculation result of the position calculator 43 (calculated in the same manner as the delay compensator 44 described above) to predict. , outputs the predicted head position to the reproduction signal generator 46 .
  • the reproduction system 1D since the reproduction system 1D generates a reproduction signal in the right reproduction device 25D of the reproduction device 2D, it is not necessary for the right reproduction device 25D to transmit the sensor value and receive the reproduction signal. Therefore, these communication delays do not occur as compared with the configuration of the reproduction system 1A shown in FIG.
  • the delay compensator 44D calculates the delay amount Td of the system with respect to these delays. As a result, even in the reproduction system 1D that uses the reproduction device 2D that generates the reproduction signal, optimum delay compensation can be similarly performed.
  • FIG. 16 is a diagram showing a configuration example of still another reproduction system (reproduction system 1E).
  • the playback system 1E has a playback device 2E and a server device 3 .
  • the reproduction system 1E reproduces content by the reproduction device 2E executing an application.
  • the playback device 2E performs both sensing of the orientation of the user's head and generation of playback signals.
  • the playback device 2E is a device that outputs sound and makes the user perceive it.
  • the playback device 2E is specifically composed of headphones.
  • the reproducing device 2E has a sensor section 21, a reproducing section 22, a position calculating section 43, a delay compensating section 44E, a sound source position generating section 45 and a reproduced signal generating section .
  • sensor values are directly output from the sensor section 21 to the position calculation section 43 .
  • a reproduced signal is directly output from the reproduced signal generator 46 to the reproducer 22 .
  • the delay compensator 44E is composed of, for example, a delay compensation module, and calculates a delay-compensated head position using the calculation result of the position calculator 43 (calculated in the same manner as the delay compensator 44 described above) to predict. , outputs the predicted head position to the reproduction signal generator 46 .
  • the reproduction system 1E since the reproduction system 1E generates the reproduction signal in the reproduction device 2E, it is not necessary for the reproduction device 2E to transmit the sensor value and receive the reproduction signal. Therefore, these communication delays do not occur as compared with the case of the configuration of the reproduction system 1 shown in FIG. Note that it is necessary to consider processing delays for each model (for example, delays in sensor value acquisition and reproduction signal generation).
  • the delay compensator 44E takes these delays into consideration (does not consider the communication delay with respect to head orientation) and calculates the delay amount Td of the system. As a result, even in the reproduction system 1E using the reproduction device 2E that generates a reproduction signal, optimum delay compensation can be similarly performed.
  • FIG. 17 shows a computer (computer 100) that can be employed as the information processing apparatus (specifically, the playback device 2E, the server devices 3 and 3C, the terminal devices 4, 4A and 4B, and the right playback device 25D) of the above-described embodiment. shows an example of hardware configuration.
  • the computer 100 has a control section 101, a storage section 102, an input section 103, a communication section 104 and an output section 105 interconnected by a bus.
  • the control unit 101 is composed of, for example, a CPU (Central Processing Unit), RAM (Random Access Memory), ROM (Read Only Memory), and the like.
  • the ROM stores programs and the like that are read and operated by the CPU.
  • the RAM is used as work memory for the CPU.
  • the CPU controls the entire computer 100 by executing various processes and issuing commands according to programs stored in the ROM.
  • the storage unit 102 is a storage medium configured by, for example, a HDD (Hard Disc Drive), an SSD (Solid State Drive), a semiconductor memory, etc., and stores content data such as image data, video data, audio data, text data, etc. , programs (for example, applications) and other data.
  • a HDD Hard Disc Drive
  • SSD Solid State Drive
  • content data such as image data, video data, audio data, text data, etc.
  • programs for example, applications
  • the input unit 103 is a device for inputting various information to the computer 100 .
  • the control unit 101 performs various processes corresponding to the input information.
  • the input unit 103 may be a microphone, various sensors, a touch panel, a touch screen integrated with a monitor, physical buttons, or the like, in addition to a mouse and keyboard.
  • Various types of information may be input to the computer 100 via a communication unit 104, which will be described later.
  • the communication unit 104 is a communication module that communicates with other devices and the Internet according to a predetermined communication standard. Communication methods include wireless LAN such as Wi-Fi (Wireless Fidelity), LTE, 5G, broadband, and Bluetooth.
  • Wi-Fi Wireless Fidelity
  • LTE Long Term Evolution
  • 5G Fifth Generation
  • Bluetooth Wireless Fidelity
  • the output unit 105 is a device for outputting various information from the computer 100 .
  • the output unit 105 is a display that displays images and videos, a speaker that outputs sound, and the like.
  • Various types of information may be output from the computer 100 via the communication unit 104 .
  • the control unit 101 reads and executes a program (eg, application) stored in the storage unit 102, thereby performing various types of processing as described above.
  • a program eg, application
  • the program does not have to be stored in the storage unit 102.
  • the computer 100 may read and execute a program stored in a readable storage medium. Examples of this storage medium include optical discs, magnetic discs, semiconductor memories, HDDs, etc. that can be detachably attached to the computer 100 .
  • a program for example, an application
  • the program may be stored in a device connected to a network such as the Internet, and the computer 100 may read and execute the program.
  • the program may be, for example, a plug-in program that adds part or all of the above-described processing to an existing application.
  • the reproduction signal is generated according to the position of the user's head, but the present invention is not limited to this.
  • the observation target sensed by the sensor unit is not limited to the same user, and may be a subject other than a person (for example, a subject in an image at a remote location).
  • the sound image to be localized may be stationary or moving.
  • FIG. 18 is a diagram showing a configuration example of a reproduction system (reproduction system 1F) in a modified example.
  • the playback system 1F is a system that realizes a virtual experience by compensating for communication delays between devices used by a user and another remote user (remote user).
  • the playback system 1F has a playback device 2 and a terminal device 4 used by a user, a playback device 2 and a terminal device 4 used by a remote user, and a server device 3 .
  • the reproduction system 1F reproduces content (for example, AR content) by causing each terminal device 4 to execute an application.
  • the playback system 1F can realize an experience in which the user (main user) and the remote user walk side by side.
  • FIG. 19 is a diagram schematically showing the flow of processing in the reproduction system 1F.
  • the remote user's playback device 2 senses the movement of the remote user (for example, coordinate changes due to walking, etc.).
  • a sensor value obtained by sensing is transmitted to the terminal device 4 of the main user via the terminal device 4 and the server device 3 .
  • cellular communication can be used as this communication method.
  • the terminal device 4 of the main user generates a sound source position (specifically, a position near the user such as next to the user) from the content (specifically, the voice of the remote user, etc.) distributed from the server device 3.
  • the transmitted sensor values are used to generate a playback signal (specifically, an audio signal of the remote user's speech).
  • the generated reproduction signal is transmitted to the user's reproduction device 2 and reproduced to output sound.
  • the delay when the remote user's playback device 2 acquires the sensor value (delay A1), the communication delay when transmitting the sensor value to the main user's terminal device 4 (delay B1), the main user's terminal device A communication delay (delay C1) or the like occurs when 4 generates a reproduced signal.
  • the remote user's location information is transmitted with a delay due to communication delays, so even if you think you are walking side by side, the main user, who is the other party, will follow you a little later.
  • the current position can be predicted from the history of the remote user's positions, as in one embodiment described above. Therefore, by predicting and compensating for the delay amount Td in consideration of these delays including this communication delay, as shown in FIG. It can be played back by positioning it to In other words, it is possible to provide the user with an experience that does not perceive any delay.
  • the coordinates in this example may be applied not only to coordinates in the real space, but also to changes in position by a controller or the like in the VR space. In this example, the sound images of multiple remote users may be localized.
  • the configuration in which the sensor unit is provided in either one of the playback device and the terminal device has been exemplified.
  • the sensor section 21 is provided in the playback device 2 .
  • the sensor units may be provided in both the playback device and the terminal device, and the orientation of the head may be estimated using the sensor values output from each sensor unit.
  • the following applications are possible.
  • the head angle is calculated only by the playback device, the head may be erroneously detected as if it is rotated.
  • the sensor unit 21 may be provided in the server device as in the case of the terminal device as long as the server device can be carried around by the user.
  • the sound image localization is exemplified, but the target of localization is not limited to sound.
  • it may be applied to images, vibrations, haptics, and the like. This makes it possible, for example, to compensate for the delay of various remote events, such as in games.
  • it may be applied to those using senses other than hearing, such as sight and touch.
  • it may be applied to those using a plurality of senses, such as using both hearing and sight.
  • the sound image localization described above may display the position as an image on the screen of a smartphone, AR glasses, or the like.
  • the delay prediction described above can also be applied to display.
  • the delay may be intentionally increased to create a sense of motion.
  • a reproduction system having a sensor unit that senses the position of an observation target and a reproduction unit that reproduces a reproduction signal generated based on sensing data of the sensor unit.
  • An information processing apparatus comprising a control unit that predicts an overall delay amount that may occur before reproduction by a reproducing unit, compensates for the predicted overall delay amount, and generates the reproduced signal.
  • the playback unit is mounted on the user's head and outputs sound, The sensor unit senses the position of the user, The control unit calculates a position of the user's head after the entire delay amount has elapsed based on the sensing data, and performs sound image localization processing on the audio signal according to the calculated head position.
  • the information processing apparatus which generates a reproduction signal.
  • the control unit obtains state information representing a current state of the reproduction system and setting information representing a preset delay amount in each state of the reproduction system, and obtains the state information represented by the state information.
  • the information processing apparatus according to (1) or (2), wherein the delay amount of the current state of the reproduction system is read from the setting information, and the prediction is performed using the read delay amount.
  • the state information includes information regarding settings of the wireless communication when wireless communication is performed between the sensor unit and the reproducing unit.
  • the information processing device according to (3) or (4), wherein the state information includes information about models of the device having the sensor unit, the information processing device, and the device having the reproducing unit.
  • the information processing apparatus according to any one of (3) to (5), wherein the control unit does not compensate for the delay when the overall delay amount is smaller than a predetermined threshold. (7) The information processing apparatus according to any one of (3) to (6), wherein the control unit determines that the prediction is difficult when the total delay amount exceeds a predetermined time. (8) The control unit calculates the motion of the observation target, and determines that the prediction is difficult when the calculated value is equal to or greater than a predetermined threshold value that is regarded as a violent motion (3) to (7).
  • the information processing device according to any one of . (9)
  • the sensor unit has a plurality of sensors, The information processing apparatus according to any one of (3) to (8), wherein the control unit changes a sensor to be used when the prediction is difficult.
  • control unit shortens the prediction amount or switches to prediction off when the prediction is difficult.
  • control unit switches to a mode of generating a low-quality reproduced signal with less delay than generation of the reproduced signal. processing equipment.
  • control unit compensates for the delay up to the upper limit of the predicted amount when the overall delay amount exceeds the upper limit of the predicted amount set in advance. information processing equipment.
  • the playback unit is mounted on the user's head and outputs sound,
  • the sensor unit senses the position of the user,
  • the control unit calculates the position of the user after the entire delay amount has elapsed based on the sensing data, and performs sound image localization processing on the audio signal according to the calculated position of the user, thereby obtaining the reproduced signal.
  • (12) The information processing apparatus according to (12), wherein the upper limit of the predicted amount is an amount until the position of the user faces a position to which a sound image is localized by the sound image localization processing.
  • a reproduction system having a sensor unit that senses the position of an observation target and a reproduction unit that reproduces a reproduction signal generated based on sensing data of the sensor unit.
  • a reproduction system having a sensor unit that senses the position of an observation target and a reproduction unit that reproduces a reproduction signal generated based on sensing data of the sensor unit.
  • a program that causes a computer to execute a process of predicting an overall delay amount that may occur until playback by a playback unit, compensating for the predicted overall delay amount, and generating the playback signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

例えば、遅延時間の変化に対応した最適な遅延補償を行えるようにする。 観察対象の位置をセンシングするセンサ部と、センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、センサ部によるセンシングから再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した全体の遅延量の遅延を補償して再生信号を生成する処理を行う制御部を有する情報処理装置である。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 映像を表示するシステムにおいて、表示対象となる物体の動きをセンシングして計算することで表示する際に発生する遅延を予測して補償する方法について知られている(例えば、特許文献1参照)。
特開2014-229157号公報
 しかしながら、特許文献1に開示されている技術は、遅延時間の変化について考慮されていない。そのため、遅延時間が変化する場合に対応することができない。
 本開示は、遅延時間の変化に対応した最適な遅延補償を行うことができる情報処理装置、情報処理方法およびプログラムを提案することを目的の一つとする。
 本開示は、例えば、
 観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する処理を行う制御部を有する
 情報処理装置である。
 本開示は、例えば、
 観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する
 処理を行う情報処理方法である。
 本開示は、例えば、
 観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する
 処理をコンピュータに実行させるプログラムである。
図1は、音像定位の基本的な処理の流れを示すフローチャートである。 図2は、ユーザの頭位置の測定結果例を示す図である。 図3は、ユーザの向きに応じた再生信号の生成について説明するための図である。 図4は、遅延時間について説明するための図である。 図5は、一実施形態に係る再生システムの構成例を示す図である。 図6は、予測による遅延補償について説明するための図である。 図7は、再生システムにおける処理の流れを示すシーケンス図である。 図8は、遅延時間の変化について説明するための図である。 図9は、遅延補償処理の流れを示すフローチャートである。 図10A~図10Dは、遅延量を求める際に参照するテーブルの構成例を示す図である。 図11は、予測アルゴリズムの誤差について説明するための図である。 図12は、他の再生システムの構成例を示す図である。 図13は、さらに他の再生システムの構成例を示す図である。 図14は、さらに他の再生システムの構成例を示す図である。 図15は、さらに他の再生システムの構成例を示す図である。 図16は、さらに他の再生システムの構成例を示す図である。 図17は、コンピュータのハードウェア構成例を示す図である。 図18は、変形例における再生システムの構成例を示す図である。 図19は、変形例における再生システムでの処理の流れを簡略的に示す図である。 図20は、変形例での音像定位について説明するための図である。
 以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.背景>
<2.一実施形態>
<3.他のシステム構成例>
<4.コンピュータのハードウェア構成例>
<5.変形例>
 以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。なお、以下の説明において、実質的に同一の機能構成を有するものについては同一の符号を付し、重複説明を適宜省略する。
<1.背景>
 始めに、本開示の背景について説明する。ヘッドフォンに3軸の加速度センサ、ジャイロセンサなどを含んで構成されるIMU(Inertial Measurement Unit)などの動き検知可能なセンサを取り付けることで、ユーザの頭の絶対角を測定することができる。また、3Dオーディオ技術を用いることで、ユーザに対して任意の相対位置に音像があるような音を再生することができる。そして、この2つを組み合わせると、ユーザの頭の動きをキャンセルするように音を絶対位置に固定して再生することができる。これを音像定位と呼ぶ。
 図1は、音像定位の基本的な処理フロー例である。音像定位を実現するには、まず、ユーザの頭の動きをIMUなどのセンサで測定して取得する(ステップS101)。次に、その測定結果を用いてユーザの現在の頭の位置(具体的には、絶対角)P_t1を算出する(ステップS102)。
 図2は、ユーザの頭位置の測定結果例を示す。横軸は時間を表し、縦軸は頭の回転角(度)を表している。なお、0度は、ユーザが前向きである(仮想的な音源位置を向いている)ことを表し、-90度は、ユーザが左向きであることを表している。つまり、この図の場合、ユーザが頭の向きを前向きから左向きに変えていることを表している。この例の場合、現在の頭の位置P_t1は、時刻T(現在時刻)での頭の回転角を測定することで求められる。
 そして、このようにユーザの現在の頭の位置P_t1を算出したら、その位置P_t1に対応した3Dオーディオの再生信号を生成し(ステップS103)、生成した再生信号を再生して音を出力する(ステップS104)。
 例えば、図3に示すように、仮想的な音源位置に対してユーザが前向きの場合には、ヘッドフォンのLR両側(左右両耳側)からバランスよく音が出力されるように再生信号を生成する。そして、その状態から、ユーザが左向きになった場合には、その動きを検知して、主にヘッドフォンのR側(右耳側)から音が出力されるように再生信号を生成する。このように頭の位置に応じて再生信号を生成し再生することで、ユーザに音が実空間で静止しているように感じさせることができる。なお、図示したような横向き回転に限らず、他方向の回転であっても同様である。
 しかしながら、この方法には以下のような問題がある。ユーザの頭が動いたときから音像定位させた音を再生し、出力するまでには処理時間や通信時間が必要となる。この処理時間と通信時間を合わせて遅延時間と呼ぶ。この遅延時間が一定以上(例えば、100ms以上)になると、ユーザの位置に対して音像の位置の計算がずれてしまい、ユーザは、音の発生源が止まっていると認識できなくなってしまう。
 例えば、図4に示すように、ユーザの頭の動きの取得から音を再生するまでに時間T_delayかかるものとする。この場合、先ほどの方法だと、音再生時の実際の頭位置がP_t1であるのに対し、音再生に用いる頭位置(生成時の頭位置)は時間T_delayだけ前の位置P_t0なので、その分、ずれが生じてしまう。本開示は、このような遅延によるずれを補償する技術を提案するものである。
<2.一実施形態>
[2-1.再生システムの構成例]
 図5は、一実施形態に係る再生システム(再生システム1)の構成例を示す図である。再生システム1は、聴覚によるAR(Augmented Reality:拡張現実)、VR(Virtual Reality:仮想現実)などの仮想体験を実現するシステムである。再生システム1は、再生装置2、サーバ装置3および端末装置4を有している。再生システム1は、具体的には、端末装置4がアプリケーションを実行することでコンテンツ(例えば、ARコンテンツ)の再生を行うものである。再生システム1は、ユーザの頭向きのセンシングを再生装置2で行い、再生信号の生成を端末装置4が行う。
 再生装置2は、音を出力してユーザに知覚させる装置である。再生装置2は、具体的には、ユーザ頭部に装着可能なヘッドフォンで構成されている。なお、再生装置2は、イヤフォン、ヘッドマウントディスプレイなどの他の音声出力可能な装置で構成されていてもよい。また、ヘッドセット(マイクロフォン付きのヘッドフォン、イヤフォン)で構成されていてもよい。再生装置2は、センサ部21、再生部22、送信部23および受信部24を有している。
 センサ部21は、観察対象となるユーザの頭位置(具体的には、頭向き)をセンシングし、それにより得られたセンサ値(センシングデータ)を送信部23に出力する。センサ部21は、具体的には、加速度センサ、ジャイロセンサおよび地磁気センサによるセンサ群と、各センサが出力するセンサ値を受信するセンサ値受信モジュールとで構成されている。
 なお、センサ部21の構成は、これに限らない。例えば、センサ部21を構成するセンサの数は、1以上であればよく、単一種類または1つのセンサを用いる構成などであってもよい。例えば、ヘッドフォンの両耳部分にそれぞれセンサを設けてあってもよい。また、センサの種類は、カメラやToF(Time of Flight)センサ、測位センサ(例えば、GPS)などであってもよい。例えば、センサ部21は、スマートフォンやネットワークカメラ(例えば、WEBカメラ)を含む複数のカメラで動きを認識するものであってもよい。さらに、センサ部21は、マーカをユーザの頭部に装着させて角度を推定するモーションキャプチャシステムなどで構成されていてもよい。例えば、センサ部21は、OptiTrack(登録商標)などのトラッカーで構成してもよい。また、これらを組み合わせてもよい。つまり、センサ部21を構成するセンサの種類、数および位置は、適宜、決めることができる。
 再生部22は、例えば、左耳用および右耳用の左右一対のスピーカユニットで構成されており、受信部24から入力される再生信号を再生して再生信号に基づく音を出力する。なお、再生信号は、センサ部21のセンサ値に基づいて端末装置4にて生成されるものである。送信部23および受信部24は、例えば、端末装置4と通信可能な通信モジュールで構成されている。本実施形態では、具体的には、Bluetooth(登録商標)、つまり、無線通信による通信を想定しているが、有線接続による通信であっても構わない。なお、無線通信の方式は、Wi-Fi(登録商標)、WUSB(Wireless USB)、LTE(Long Term Evolution)、5G(第5世代移動通信システム)などであってもよい。送信部23は、具体的には、センサ部21から入力されるセンサ値を端末装置4に送信する。受信部24は、具体的には、端末装置4から送信される再生信号を受信し、受信した再生信号を再生部22に出力する。
 サーバ装置3は、例えば、インターネットなどのネットワーク上に設けられ、コンテンツを配信する配信サーバとして機能する。サーバ装置3は、コンテンツ配信部31を有しており、端末装置4に対して、適宜、コンテンツを配信する。なお、サーバ装置3は、クラウドサーバであってもよい。
 端末装置4は、再生装置2に送信する再生信号を生成する装置である。詳述すると、端末装置4は、センサ値に基づいて上述した遅延時間を経過後のユーザの頭の位置を算出して予測し、予測した頭の位置に応じた音像定位処理(図3を参照して説明した音像を定位する処理)をオーディオ信号に行うことで再生信号を生成する。端末装置4は、具体的には、スマートフォンで構成されている。なお、端末装置4は、タブレット端末、パーソナルコンピュータ、ゲーム機など、他のコンピュータ機器で構成されていてもよい。端末装置4は、受信部41、送信部42、位置計算部43、遅延補償部44、音源位置生成部45および再生信号生成部46を有している。
 受信部41および送信部42は、例えば、再生装置2と通信可能な通信モジュールで構成されている。なお、通信には、上述した送信部23および受信部24の説明と同じものを用いることができる。本実施形態では、具体的には、Bluetoothが用いられる。受信部41は、具体的には、再生装置2の送信部23から送信されるセンサ値を受信し、受信したセンサ値を位置計算部43に出力する。送信部42は、具体的には、再生信号生成部46から入力される再生信号を再生装置2に送信する。
 位置計算部43は、例えば、頭向き計算モジュールで構成されており、ユーザの頭の位置を算出する。位置計算部43は、具体的には、受信部41から入力されるセンサ値を用いてユーザの現在の頭位置を算出するとともに、未来の頭位置を算出するための予測関数を算出する。ユーザの頭の動きは連続的なので、時間経過による動きから未来の動きを予測することができる。そこで、位置計算部43は、例えば、ユーザの頭の動きを時系列で保持し、その履歴から回帰分析を行って予測関数を算出する。遅延補償部44は、例えば、遅延補償モジュールで構成されており、位置計算部43の算出結果(現在の頭位置および予測関数)を用いて遅延補償した頭位置を算出して予測し、予測した頭位置を再生信号生成部46に出力する。
 図6は、予測による遅延補償について説明するための図である。位置計算部43は、現在の頭の位置P_t0を計算し、頭の位置の履歴から位置の予測関数P(t)を算出する。遅延補償部44は、位置P_t0と、予測関数P(t)とを用いて遅延時間T_delayを経過後の頭位置を、具体的には、位置P(t0+T_delay)を算出して予測する。この予測された頭位置は、実際の頭位置P_t1と略一致(完全一致を含む)する。
 音源位置生成部45は、例えば、コンテンツから音源位置を生成するモジュールによって構成されている。音源位置生成部45は、サーバ装置3から送られるコンテンツを取得し、取得したコンテンツから音源位置を生成し、生成した音源位置を再生信号生成部46に出力する。
 再生信号生成部46は、例えば、再生信号生成モジュールで構成されている。再生信号生成部46は、遅延補償部44から入力される頭の位置と、音源位置生成部45から入力される音源位置とに基づいて3Dオーディオの再生信号を生成し、生成した再生信号を送信部42に出力する。つまり、再生信号生成部46は、音源位置に対するユーザの頭向きに応じた再生信号を生成する。具体的には、図3を参照して説明したように生成する。
 再生信号生成部46は、具体的には、3Dオーディオの再生信号の生成にバーチャルサラウンド技術を用いる。バーチャルサラウンド技術としては、例えば、VPT(ソニー株式会社の登録商標)を採用することができる。VPT(Virtualphones Technology)は、音源から両耳までの伝達特性として頭部伝達関数(HRTF:Head Related Transfer Function)を測定し、入力信号に測定されたHRTFを畳み込むことで、2チャンネルのヘッドフォン再生でありながら、音像の頭外定位化と、あたかもユーザ周囲に配置したスピーカからの音(例えば、5.1チャンネルや7.1チャンネルの音)を聴いているような音場再生とを実現するものである。なお、生成する再生信号は、これに限らず、例えば、2チャンネルよりも多いチャンネル数のものを生成してもよい。
 以上の構成を有する再生システム1によれば、上述した遅延によるずれを補償した頭位置に対応した再生信号を生成し再生することができるので、ユーザは、音像定位した良い体験をすることができる。
[2-2.再生システムでの処理フロー例]
 図7は、再生システム1における処理の流れの一例を示すシーケンス図である。まず、再生装置2がユーザの頭の動きを測定する(ステップS1)。つまり、センサ部21がセンシングにより得られたセンサ値を送信部23に出力し、送信部23がそのセンサ値を端末装置4に送信する。
 次に、端末装置4がユーザの現在の頭の位置P_t0を計算する(ステップS2)。つまり、受信部41が再生装置2の送信部23から送信されたセンサ値を受信して位置計算部43に出力する。そして、位置計算部43がそのセンサ値を用いてユーザの現在の頭の位置P_t0を算出し、計算結果を遅延補償部44に出力する。
 そして、端末装置4は、予測関数P(t)を算出する(ステップS3)。具体的には、位置計算部43が予測関数P(t)を算出し、算出結果を遅延補償部44に出力する。
 次に、端末装置4は、遅延時間T_delayを補償したユーザの頭の位置を予測する(ステップS4)。詳述すると、遅延補償部44が位置計算部43の算出結果を用いて遅延時間T_delayを補償した頭位置を算出して予測し、その結果を再生信号生成部46に出力する。
 一方、サーバ装置3は、端末装置4にコンテンツを配信する(ステップS5)。具体的には、コンテンツ配信部31がユーザの位置などの所定条件に応じて適宜、端末装置4にコンテンツを配信する。
 次に、端末装置4が予測した位置に応じてコンテンツに対応する再生信号を生成する(ステップS6)。つまり、音源位置生成部45がサーバ装置3から送られるコンテンツから音源位置を生成し、生成した音源位置を再生信号生成部46に出力する。続いて、再生信号生成部46が遅延補償部44から入力された頭位置と、音源位置生成部45から入力された音源位置とに基づいて再生信号を生成し、生成した再生信号を送信部42に出力する。そして、送信部42がその再生信号を再生装置2に送信する。
 最後に、再生装置2が再生信号を再生して音を出力する(ステップS7)。詳述すると、受信部24が端末装置4から送信された再生信号を受信して再生部22に出力する。そして、再生部22がその再生信号を再生して音を出力する。このように、遅延時間経過後の未来のユーザの頭位置を予測して、その位置に対応した音を再生することで、ユーザは、音像定位した良い体験を行うことができる。
 ところで、遅延時間は、システム構成、電波状況、実行する処理などによって変化する。例えば、再生装置2と端末装置4とが無線(例えば、Bluetooth)で接続されている場合、電波状況により再生装置2からの信号が端末装置4に伝わるのに必要な時間が変化する。また、3Dオーディオの再生信号を生成する際の計算時間も音像数などによって変化する。
 図8は、遅延時間の変化について説明するための図である。例えば、上述した再生システム1では、遅延は以下の5要素に分解することができる。
 1.センサ値の取得の際に発生する遅延(遅延A)
 2.センサ値の通信の際に発生する遅延(遅延B)
 3.再生信号生成の際に発生する遅延(遅延C)
 4.再生信号の通信の際に発生する遅延(遅延D)
 5.再生の際に発生する遅延(遅延E)
 遅延A,Eは、再生装置2に固有の遅延であり、遅延B,Dは、通信方法、電波状況などによって変わる遅延であり、遅延Cは、再生する音源数、音の種類(具体的には、発話コンテンツ、音楽コンテンツなど)などの処理内容によって変わる遅延である。
 このように、各遅延時間は、一定でなく構成や条件、状況などによって変化するため、それに合わせて遅延補償時間も変化させる必要がある。また、遅延補償時間の予測が難しい場合なども考えられる。そこで、上述した遅延補償部44は、接続されているデバイスやプロファイルなどから遅延時間を予測して、最適な予測時間を設定する。具体的には、遅延補償部44は、以下の遅延補償処理によって最適な遅延補償時間を設定し、設定した遅延補償時間に応じて頭向きを算出する。
[2-3.遅延補償処理のフロー例]
 図9は、遅延補償処理の流れを示すフローチャートである。まず、遅延補償部44は、再生システム1の現在の状態を表す状態情報を取得する(ステップS11)。具体的には、遅延補償部44は、上述した遅延A~Eを各々判別可能な情報を取得する。上述した装置に固有の遅延A,Eを判別する情報としては、具体的には、装置の機種名(メーカ名を含んでいてもよい)または機種を特定する情報などがあげられる。このように、状態情報には、センサ部21および再生部22を有する再生装置および再生信号を生成する端末装置4の機種に関する情報が含まれている。
 また、通信に関する遅延B,Dを判別する情報としては、具体的には、通信遅延に関与する要素の情報(例えば、接続プロファイル、通信バッファサイズ、接続状況など)があげられる。接続状況の情報は、例えば、通信API(Application Programming Interface)からの通信遅延情報、パケット再送率、通信ビットレートなどである。このように、状態情報には、センサ部21および再生部22間において無線通信を行う場合における無線通信の設定に関する情報が含まれている。
 また、遅延Cを判別する情報としては、例えば、コンテンツ種類、コンテンツ名、音源数などの処理内容を特定する情報があげられる。このように、状態情報には、コンテンツに関する情報が含まれている。
 次に、遅延補償部44は、予め設定されている再生システム1の各状態での遅延量(遅延時間)を表す設定情報(本例ではテーブル)を取得する。そして、状態情報によって表される再生システム1の現在の状態の遅延量を設定情報から読み出し、読み出した遅延量を用いて、再生システム1の状態に応じて変化するセンサ部21によるセンシングから再生部22による再生までの間に生じ得る全体の遅延量Tdを算出して予測する(ステップS12)。具体的には、各状態情報に対応した遅延量をテーブルから読み出し、合算した遅延量Tdを算出する。
 図10は、遅延量Tdを求める際に参照するテーブルの構成例を示す。図10Aは、遅延A,Eの遅延量を読み出すテーブルの構成例であり、再生装置2および端末装置4の機種(例えば、ヘッドフォンAなど)と、その機種の装置内における処理遅延の遅延量とが関連付けられている。図10Bは、遅延B,Dの遅延量を読み出すテーブルの構成例であり、無線接続のプロファイルと、その伝送遅延の遅延量とが関連付けられている。なお、Classic Audioは、Bluetoothのオーディオ信号伝送用の既存規格であり、BLE(Bluetooth Low Energy) Audioは、Bluetoothのオーディオ信号伝送用の既存規格よりも新しい規格である。
 また、図10Cは、遅延Cの遅延量を読み出すテーブルの構成例であり、再生するコンテンツの種類(例えば、コンテンツA)と、そのコンテンツ内での音生成処理にかかる時間(処理による遅延量)とが関連付けられている。なお、ユーザの動きに対する遅延補償を行うコンテンツと行わないコンテンツとを設定していてもよい。この場合、例えば、遠くから聞こえる音は定位感が強くないため、遅延補償を行わなくてもよいが、近くの声のような遅延が気になる音に対しては遅延補償を行うことが望ましい。
 図10Dは、遅延量Tdを1つのテーブルで算出する場合の構成例であり、無線接続のプロファイルが遅延量Tdと関連付けられている。このように、1つのテーブルを読み出して遅延量Tdを算出してもよい。遅延補償部44は、具体的には、このようなテーブルを参照して、上述した遅延A~Eの遅延量をすべて合算して遅延量(予測遅延時間)Tdを求める。効果的であるならば、一部のみを合算して算出してもよい。なお、テーブル内の遅延量は、予め事前測定などにより取得して記憶されているものである。
 ここで、各遅延量は、テーブルを参照して取得することに限らない。例えば、キャリブレーションモードで実際に再生装置2からオーディオ信号を再生して音を出力し、端末装置4が有するマイクロフォン(具体的には、スマートフォンのマイクロフォン)で音を検知して遅延を計測してもよい。つまり、事前に実測された値によって遅延量Tdを予測してもよい。また、各遅延量は、例えば、モジュールの設定値を格納場所から読み出して取得してもよい。また、これらを適宜、組み合わせて各遅延量を取得してもよい。例えば、一部の遅延量はテーブルを参照し、一部の遅延量はモジュールの設定値を読み出して取得してもよい。なお、事前にテーブルに登録されていないデバイスなどであって、遅延量が取得できない場合には、例えば、既定の遅延量(デフォルト設定値)を用いてもよいし、その遅延量をゼロとして計算してもよい。
 ここで、この遅延量Tdの計算タイミングは、再生信号の生成以前であればよい。例えば、再生装置2と端末装置4とをペアリングした時点で事前に行ってもよいし、アプリケーションを起動したタイミングで行ってもよい。
 次に、遅延補償部44は、ユーザの動きが予測困難であるか否かを判定する(ステップS13)。ユーザが激しく動いている場合は予測が難しく、ユーザにとっても音の定位を知覚しにくい。これは、予測関数はユーザの動きの周波数が少ない場合は、実際の挙動をうまく再現できるものの、ユーザが激しく動いている場合、すなわち、ユーザの動きに高い周波数成分が多い場合、予測関数と実際の挙動のずれが大きくなるためである。また、遅延時間が長い(例えば、1秒)場合も予測が難しく、補償の効果が小さくなる。
 そこで、遅延補償部44は、ユーザの動きが激しいか否か、遅延時間(遅延量Td)が所定時間(例えば1秒)よりも長いか否かを判定することで、予測困難であるか否かを判定する。つまり、ユーザの動きが激しくなく、かつ、遅延時間が所定時間以内である場合には予測困難でないと判定し、それ以外の場合(動きが激しい場合または遅延量Tdが所定時間を超える場合)には予測困難であると判定する。
 ユーザの動きが激しいことは、例えば、以下の計算により決めることができる。位置のベクトル(x,y,z)に対してハイパスフィルタ(HPF:High-Pass Filter)を適用し、ノルムを算出すると、位置変化の高周波成分が分かる。この値を過去t秒間積分し、その値が所定の閾値以上であれば激しい動きがあるとみなす。なお、ユーザの動きが激しいことを求める方法は、これに限らない。例えば、位置の積分、すなわち角速度の符号が過去t秒間に反転した回数を調べ、回数が所定の閾値以上であれば激しい動きがあるとみなしてもよい。また、位置の予測結果と実測値とを比較し、過去t秒間の予測値のずれを積分し、それが所定の閾値以上であれば動きが激しいとみなしてもよい。また、これらを組み合わせて判定してもよい。
 なお、動きが激しい傾向にあるユーザは、予測がうまくいかない場合が多い。そこで、例えば、ユーザを特定し、動きが激しい傾向のユーザであると判定された場合に予測困難であると判定してもよい。これにより、判定処理を簡略化することができる。
 ステップS13にて、ユーザの動きが予測困難である(YES)と判定された場合には、遅延補償部44は、予測困難への対応を行う(ステップS14)。予測困難への対応としては、例えば、予測をオフにしてもよいし(遅延補償を行わない)、本実施形態のように複数センサを用いる場合には、使用センサを変更して試みてもよい。また、例えば、遅延量Tdよりも短い時間となるように予測量を短縮して遅延補償(例えば、300msに対して150msの遅延補償)を行ってもよいし、所定位置までしか予測を行わないように予測制限を行ってもよい。さらに、例えば、通常の再生信号の生成よりも遅延が少ない低品質(低音質)の再生信号を生成するモードに切り替えるようにしてもよいし、バッファサイズを調整してシステム側の遅延を小さくしてもよい。ユーザの動きが激しくて予測が難しいと判定された場合には、例えば、音像定位のパラメータを変更したりフィルタ効果を適用したりして、遅延に気づきにくくしてもよい。例えば、ドップラー効果をシミュレートしてもよい。遅延補償を行わないなど、遅延補償が不完全である場合には、音響効果や強度を調整して位置感覚を曖昧にしてもよい。また、これらの対応を組み合わせてもよい。これらの対応によって最適な再生信号の生成を行うことができる。
 ここで、上述した使用センサの切り替え例について説明する。複数種類のセンサを使用可能な構成の場合、使用するセンサの種類、数または位置によって処理の精度や速度が変わる。例えば、ジャイロセンサは高速だが、絶対角の取得としては精度が低い。一方、地磁気センサは屋外での絶対角の取得は精度が高いが低速である。また、両耳部分にそれぞれセンサを設けた構成とした場合には、1つのセンサだけを設けている場合と比較して精度が高くなるが、通信のオーバーヘッドが生じる。スマートフォンやネットワークカメラを含む複数のカメラで動きを認識する構成とした場合には、精度がよくなるが、通信遅延が大きくなる。そこで、使用センサの切り替えは、例えば、以下のように行う。
 まず、センサに対して最大遅延量Tmaxを設定する。そして、遅延量が最大遅延量Tmax以下のセンサに関しては、タイムスタンプを比較し、最も遅い時刻のセンサに合わせて遅延補償の処理を行う。一方、遅延量が最大遅延量Tmaxを超えている場合、または、センサの精度、信頼度が各々所定の設定値よりも低い場合には、そのセンサを使用せずに遅延補償を行う。これにより、例えば、遅延が大きい地磁気センサは使用しない、通信遅延が大きいカメラは認識に使用しないなどの対応が可能となる。このようにすることで、遅延量Tdが大きくなることを抑えて、予測困難な状態を解消し得るようになる。また、センサは、精度、信頼度を重視して切り替えるようにしてもよい。つまり、ユーザの動きが激しい場合に、精度の高いセンサを使用するように切り替えてもよい。このように、センサは、必要に応じて切り替えればよい。
 次に、上述した予測制限の例について説明する。上述したような予測アルゴリズムでは、動きの予測関数を求め、それを元に指定時間後の位置を求める。図11は、予測アルゴリズムの誤差を説明するための図である。図示するように、予測アルゴリズムでは、短時間の予測では、実際の未来の位置を少ない誤差で予測することができる。ところが、予測時間、つまり、遅延量Tdが長い場合や、上述したように、ユーザの動きが大きい場合には、誤差が大きくなる(オーバーシュートする)可能性が高くなる。
 これに対しては、アルゴリズムでの予測量に上限を設けることが効果的である。人間の頭部は回転角度に限界があるため、予測する時間で移動できる角度は限られている(例えば、300msの場合に30度が限界値など)。したがって、この角度よりも小さい値を上限値として設定し、予測量がこの値を超える場合には予測を上限値で打ち切るようにする。つまり、全体の遅延量Tdが、予め設定されている予測量の上限を超える場合には予測量の上限までしか遅延を補償しないようにする。これにより、適切な予測を効率的に行うことができる。
 また、ユーザは、おそらく音が鳴っている方を向くという仮定のもと、顔の正面が音源位置を向く位置で予測を止めるのも効果的である。例えば、絶対位置90度で音像定位された音が鳴っていて、ユーザが0度から動き始めた場合、ユーザは、その90度の角度を向く可能性が高い。このため、予測関数によりユーザの頭角度が、例えば100度と計算された場合でも、90度を超える予測は90度とするようにする。このように、予測量の上限をユーザの位置が音像を定位させた位置(音源位置)を向くまでの量とすることで、適切な予測を効率的に行うことができる。
 一方、ステップS13にて、ユーザの動きが予測困難でない(NO)と判定された場合には、遅延補償部44は、遅延量Tdが所定の閾値T0よりも大きいか否かを判定する(ステップS15)。ここで、遅延量Tdが小さい値(例えば、20ms以下)の場合には人間は知覚できない。そこで、この知覚できない値を閾値T0として設定しておく。
 ステップS15にて遅延量Tdが閾値T0よりも小さい(NO)と判定された場合には、遅延補償を行わずに処理を終了する。これにより、遅延補償が効果的でない場合に処理を簡略化することができる。
 一方、ステップS15にて遅延量が閾値よりも大きい(YES)と判定された場合には、遅延量Tdの時間だけ遅延補償を行い(ステップS16)、処理を終了する。なお、遅延補償する時間は、遅延量Tdよりも小さい値を設定してもよい。例えば、上述した人間の知覚範囲を考慮して、遅延量Tdよりも20msまでの範囲で小さく設定してもよい。
[2-4.まとめ]
 本実施形態に係る再生システム1では、遅延量Tdを適切に設定して遅延補償を行うことができるので、ユーザの使用機種、通信環境、使用コンテンツなどのユーザの使用環境によらず、ユーザに快適な音像定位を体験させることができる。
 ユーザの動きが激しいことなどにより、正確な遅延予測が難しい場合には、単純に予測した遅延量Tdだけ遅延補償を行うと、かえってユーザの体験が悪化してしまう場合がある。しかしながら、本実施形態に係る再生システム1では、遅延予測が困難な場合に、それを検知して対応する(例えば、予測を行わない)ので、このような体験の悪化を防ぐことができる。
 特に、遅延量が異なる複数のセンサがある場合、センサの遅延時間に応じて使用するセンサを変えることで、極端に遅いセンサが追加されることにより遅延が増加することなどを防ぐことができる。
<3.他のシステム構成例>
 上述した一連の処理は、他の構成を有する再生システムについても適用することができる。以下、他のシステム構成例について説明する。なお、以下の説明においては、基本的に上述した再生システム1と相違する点について説明し、同じ内容または共通する内容については、適宜説明を省略する。
[システム構成例1]
 図12は、他の再生システム(再生システム1A)の構成例を示す図である。再生システム1Aは、再生装置2A、サーバ装置3および端末装置4Aを有している。
 再生装置2Aは、音を出力してユーザに知覚させる装置である。再生装置2Aは、別体構造の右耳用の右側再生装置25および左耳用の左側再生装置27を有している。再生装置2Aは、具体的には、ユーザ頭部に装着可能なイヤフォン(例えば、インナー型イヤフォン)で構成されている。
 右側再生装置25は、ユーザの右耳に装着されるものであり、センサ部21、再生部22A、送信部23、受信部24および左右通信送信部26を有している。再生部22Aは、例えば、右耳用のスピーカユニットで構成されている。再生部22Aは、受信部24から入力される再生信号を再生して再生信号に基づく右耳用の音を出力する。受信部24は、端末装置4から送信される再生信号を受信して、受信した再生信号を再生部22Aおよび左右通信送信部26に出力する。
 左右通信送信部26は、例えば、左側再生装置27と通信可能な通信モジュールで構成されている。通信方式としては、例えば、Bluetoothが用いられる。なお、上述した送信部23および受信部41間の通信と同様に、他の通信方式を用いてもよい。左右通信送信部26は、具体的には、受信部24から入力される再生信号を左側再生装置27に送信する。
 左側再生装置27は、ユーザの左耳に装着されるものであり、再生部28および左右通信受信部29を有している。再生部28は、例えば、左耳用のスピーカユニットで構成されている。再生部28は、左右通信受信部29から入力される再生信号を再生して再生信号に基づく左耳用の音を出力する。
 左右通信受信部29は、例えば、右側再生装置25と通信可能な通信モジュールで構成されている。通信方式としては、上述したように、例えば、Bluetoothが用いられる。左右通信受信部29は、具体的には、右側再生装置25の左右通信送信部26から送信される再生信号を受信し、受信した再生信号を再生部28に出力する。
 端末装置4Aは、再生装置2Aに送信する再生信号を生成する装置である。端末装置4Aは、具体的には、スマートフォンで構成されている。端末装置4Aは、受信部41、送信部42、位置計算部43、遅延補償部44A、音源位置生成部45および再生信号生成部46を有している。
 遅延補償部44Aは、例えば、遅延補償モジュールで構成されており、位置計算部43の算出結果を用いて遅延補償した頭位置を算出(上述した遅延補償部44と同様に算出)して予測し、予測した頭位置を再生信号生成部46に出力する。ここで、再生装置2Aは、上述したように、左右通信送信部26および左右通信受信部29による左右通信を行う分、図5に示した再生システム1の構成の場合と比較して再生信号の送信遅延が増える。そこで、遅延補償部44Aは、この増加する遅延量についても合算して系の遅延量Tdを計算する。これにより、左右分離構成の再生装置2Aを用いる再生システム1Aであっても、同様に最適な遅延補償を行うことができる。
[システム構成例2]
 図13は、さらに他の再生システム(再生システム1B)の構成例を示す図である。再生システム1Bは、再生装置2B、サーバ装置3および端末装置4Bを有している。再生システム1Bは、ユーザの頭向きのセンシングおよび再生信号の生成の両方を端末装置4Bが行う。
 再生装置2Bは、音を出力してユーザに知覚させる装置である。再生装置2Bは、具体的には、ヘッドフォンで構成されている。再生装置2は、再生部22および受信部24を有している。
 端末装置4Bは、再生装置2Bに送信する再生信号を生成する装置である。端末装置4Bは、具体的には、スマートフォンで構成されている。端末装置4Bは、センサ部21B、受信部41、送信部42、位置計算部43、遅延補償部44B、音源位置生成部45および再生信号生成部46を有している。
 センサ部21Bは、上述したセンサ部21と同様の構成を有しており、例えば、スマートフォンの内蔵センサで構成されている。例えば、スマートフォンは、画面が見えるように手に持ったり、頭に載せたり、首に下げたり、ポケットに入れたりして使用するため、ユーザの厳密な頭向きの測定は難しいが、体の向きは測定することができる。そのため、体の向きによって頭の向きを推定することができる。センサ部21Bは、ユーザの体位置(向き)をセンシングし、それにより得られたセンサ値を位置計算部43に出力する。
 遅延補償部44Bは、例えば、遅延補償モジュールで構成されており、位置計算部43の算出結果を用いて遅延補償した頭位置を算出(上述した遅延補償部44と同様に算出)して予測し、予測した頭位置を再生信号生成部46に出力する。ここで、再生システム1Bは、端末装置4Bがセンサ部21Bを有しているため、再生装置2Bから端末装置4Bにセンサ値を送信する必要がない。そのため、図5に示した再生システム1の構成の場合と比較してセンサ値の送信遅延が生じない。そこで、遅延補償部44Bは、この送信遅延を考慮しないで系の遅延量Tdを計算する。これにより、センサ部21を有していない再生装置2Bを用いる再生システム1Bであっても、同様に最適に遅延補償を行うことができる。
[システム構成例3]
 図14は、さらに他の再生システム(再生システム1C)の構成例を示す図である。再生システム1Cは、再生装置2およびサーバ装置3Cを有している。再生システム1Cは、具体的には、サーバ装置3Cがアプリケーションを実行することでコンテンツの再生を行う。再生システム1Cは、ユーザの頭向きのセンシングを再生装置2で行い、再生信号の生成をサーバ装置3Cが行う。つまり、再生装置2は、サーバ装置3Cにセンサ値を送信し、サーバ装置3Cから送信される再生信号を受信して再生する。この再生信号は、例えば、ストリーミングデータである。装置間の通信には、例えば、LTEや5Gなどのセルラー通信、Wi-Fiなどが用いられる。
 サーバ装置3Cは、例えば、インターネットなどのネットワーク上に設けられ、コンテンツを配信する配信サーバとして機能する。サーバ装置3Cは、コンテンツ配信部31、受信部41、送信部42、位置計算部43、遅延補償部44、音源位置生成部45および再生信号生成部46を有している。この構成では、コンテンツ配信部31から音源位置生成部45に直接的にコンテンツが提供される。これにより、再生装置2で頭向きをセンシングして、サーバ装置3Cで再生信号の生成を行う再生システム1Cにおいても、同様に最適な遅延補償を行うことができる。
[システム構成例4]
 図15は、さらに他の再生システム(再生システム1D)の構成例を示す図である。再生システム1Dは、再生装置2Dおよびサーバ装置3を有している。サーバ装置3は、例えば、クラウドサーバである。再生システム1Dは、具体的には、再生装置2Dがアプリケーションを実行することでコンテンツの再生を行う。再生システム1Dは、ユーザの頭向きのセンシングおよび再生信号の生成を再生装置2Dで行う。つまり、再生装置2Dで頭向きをセンシングして、クラウドから受信したデータ(コンテンツ)に対して再生信号の生成処理を適用する。
 再生装置2Dは、音を出力してユーザに知覚させる装置である。再生装置2Dは、別体構造の右耳用の右側再生装置25Dおよび左耳用の左側再生装置27を有している。再生装置2Dは、具体的には、ユーザ頭部に装着可能なイヤフォンで構成されている。
 右側再生装置25Dは、ユーザの右耳に装着されるものであり、センサ部21、再生部22A、左右通信送信部26、位置計算部43、遅延補償部44D、音源位置生成部45および再生信号生成部46を有している。この構成では、センサ部21から位置計算部43に直接的にセンサ値が出力される。また、再生信号生成部46から再生部22Aおよび左右通信送信部26に直接的に再生信号が出力される。
 遅延補償部44Dは、例えば、遅延補償モジュールで構成されており、位置計算部43の算出結果を用いて遅延補償した頭位置を算出(上述した遅延補償部44と同様に算出)して予測し、予測した頭位置を再生信号生成部46に出力する。ここで、再生システム1Dは、再生装置2Dの右側再生装置25Dにおいて再生信号を生成するため、右側再生装置25Dにおいてセンサ値の送信および再生信号の受信を行う必要がない。そのため、図12に示した再生システム1Aの構成の場合と比較してこれらの通信遅延が生じない。この場合、具体的には、再生信号生成の際の遅延、センサ値取得の際の遅延、オーディオバッファ、左右通信の遅延が発生する。そこで、遅延補償部44Dは、これらの遅延に関して系の遅延量Tdを計算する。これにより、再生信号の生成を行う再生装置2Dを用いる再生システム1Dであっても、同様に最適な遅延補償を行うことができる。
[システム構成例5]
 図16は、さらに他の再生システム(再生システム1E)の構成例を示す図である。再生システム1Eは、再生装置2Eおよびサーバ装置3を有している。再生システム1Eは、具体的には、再生装置2Eがアプリケーションを実行することでコンテンツの再生を行う。再生システム1Eは、ユーザの頭向きのセンシングおよび再生信号の生成の両方を再生装置2Eで行う。
 再生装置2Eは、音を出力してユーザに知覚させる装置である。再生装置2Eは、具体的には、ヘッドフォンで構成されている。再生装置2Eは、センサ部21、再生部22、位置計算部43、遅延補償部44E、音源位置生成部45および再生信号生成部46を有している。この構成では、センサ部21から位置計算部43に直接的にセンサ値が出力される。また、再生信号生成部46から再生部22に直接的に再生信号が出力される。
 遅延補償部44Eは、例えば、遅延補償モジュールで構成されており、位置計算部43の算出結果を用いて遅延補償した頭位置を算出(上述した遅延補償部44と同様に算出)して予測し、予測した頭位置を再生信号生成部46に出力する。ここで、再生システム1Eは、再生装置2Eにおいて再生信号を生成するため、再生装置2Eにおいてセンサ値の送信および再生信号の受信を行う必要がない。そのため、図5に示した再生システム1の構成の場合と比較してこれらの通信遅延が生じない。なお、機種ごとの処理遅延(例えば、センサ値取得、再生信号の生成の際の遅延)は考慮する必要がある。そこで、遅延補償部44Eは、これらの遅延を考慮(頭向きに対する通信遅延を考慮しない)して系の遅延量Tdを計算する。これにより、再生信号の生成を行う再生装置2Eを用いる再生システム1Eであっても、同様に最適な遅延補償を行うことができる。
<4.コンピュータのハードウェア構成例>
 図17は、上述した実施形態の情報処理装置(具体的には、再生装置2E,サーバ装置3,3C、端末装置4,4A,4B,右側再生装置25D)として採用し得るコンピュータ(コンピュータ100)のハードウェア構成例を示している。コンピュータ100は、バスにより相互接続されている制御部101、記憶部102、入力部103、通信部104および出力部105を有している。
 制御部101は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)等から構成されている。ROMには、CPUにより読み込まれ動作されるプログラム等が記憶されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによってコンピュータ100全体の制御を行う。
 記憶部102は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、半導体メモリ等により構成された記憶媒体であり、画像データ、動画データ、音声データ、テキストデータ等のコンテンツデータの他、プログラム(例えば、アプリケーション)等のデータを保存するものである。
 入力部103は、コンピュータ100に対して各種情報を入力するための装置である。入力部103により情報が入力されると、制御部101は、その入力情報に対応した各種処理を行う。入力部103は、マウスおよびキーボードの他、マイクロフォン、各種センサ、タッチパネル、モニタと一体に構成されたタッチスクリーン、物理ボタン等でもよい。なお、コンピュータ100への各種情報の入力は、後述する通信部104を介して行われる構成であってもよい。
 通信部104は、所定の通信規格により他の装置やインターネットと通信する通信モジュールである。通信方法としては、Wi-Fi(Wireless Fidelity)等の無線LAN、LTE、5G、ブロードバンド、Bluetooth等がある。
 出力部105は、コンピュータ100から各種情報を出力するための装置である。出力部105は、画像や映像を表示するディスプレイ、音を出力するスピーカ等である。なお、コンピュータ100からの各種情報の出力は、通信部104を介して行われる構成であってもよい。
 制御部101は、例えば、記憶部102に記憶されているプログラム(例えば、アプリケーション)を読み出し実行することで、上述したような各種処理を行う。
 なお、プログラム(例えば、アプリケーション)は、記憶部102に記憶されていなくてもよい。例えば、コンピュータ100が読み取り可能な記憶媒体に記憶されているプログラムを読み出して実行するようにしてもよい。この記憶媒体としては、例えば、コンピュータ100に対して着脱自在な光ディスク、磁気ディスク、半導体メモリ、HDD等があげられる。また、インターネット等のネットワークに接続された装置にプログラム(例えば、アプリケーション)を記憶させておき、コンピュータ100がそこからプログラムを読み出して実行するようにしてもよい。また、プログラムは、例えば、既存のアプリケーションに、上述した処理の一部または全てを追加するプラグインプログラムであってもよい。
<5.変形例>
 以上、本開示の実施形態について具体的に説明したが、本開示は、上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。例えば、次に述べるような各種の変形が可能である。また、次に述べる変形の態様は、任意に選択された一又は複数を、適宜に組み合わせることもできる。また、上述した実施形態の構成、方法、工程、形状、材料および数値等は、本開示の主旨を逸脱しない限り、互いに組み合わせることや入れ替えることが可能である。また、1つのものを2つ以上に分けることも可能であり、一部を省略することも可能である。
 例えば、上述した一実施形態では、ユーザの頭の位置に応じた再生信号を生成するものについて説明したが、これに限らない。また、センサ部がセンシングする観察対象は、同一ユーザに限らず、また、人物以外(例えば、遠隔地の映像の被写体など)であってもよい。さらに、定位させる音像は、止まっているものでも動いているものであってもよい。図18は、変形例における再生システム(再生システム1F)の構成例を示す図である。再生システム1Fは、ユーザと、遠隔の他のユーザ(遠隔ユーザ)とがそれぞれ使用する装置間の通信遅延を補償して仮想体験を実現するシステムである。再生システム1Fは、ユーザが使用する再生装置2および端末装置4と、遠隔ユーザが使用する再生装置2および端末装置4と、サーバ装置3とを有している。再生システム1Fは、具体的には、各端末装置4がアプリケーションを実行することでコンテンツ(例えば、ARコンテンツ)の再生を行うものである。
 再生システム1Fは、具体的には、ユーザ(メインユーザ)と遠隔ユーザとが横に並んで歩く体験を実現可能なものである。図19は、再生システム1Fでの処理の流れを簡略的に示す図である。まず、遠隔ユーザの再生装置2が遠隔ユーザの動き(例えば、歩行などによる座標変化)をセンシングする。センシングにより得られたセンサ値は、端末装置4およびサーバ装置3を介してメインユーザの端末装置4に送信される。この通信方式としては、例えば、セルラー通信を用いることができる。メインユーザの端末装置4は、サーバ装置3から配信されるコンテンツ(具体的には、遠隔ユーザの話し声など)から音源位置(具体的には、ユーザの横などの近傍の位置)を生成するとともに、この送信されたセンサ値を用いて再生信号(具体的には、遠隔ユーザの話し声のオーディオ信号)を生成する。生成した再生信号は、ユーザの再生装置2に送信され、再生されて音を出力する。
 このように、遠隔ユーザの座標変化を受信し、メインユーザの横で遠隔ユーザの話し声を再生することで、横に並んで歩く体験を実現することができる。この場合、遠隔ユーザの再生装置2がセンサ値を取得する際の遅延(遅延A1)、このセンサ値をメインユーザの端末装置4に送信する際の通信遅延(遅延B1)、メインユーザの端末装置4が再生信号を生成する際の通信遅延(遅延C1)などが生じる。このように、遠隔ユーザの位置情報は、通信遅延で遅れて伝わるため、すぐ横に並んで歩いているつもりでも、相手方であるメインユーザには少し遅れてついてくるような体験になってしまう。しかしながら、歩行などのユーザの移動も連続的なので、上述した一実施形態の場合と同様に、遠隔ユーザの位置の履歴から現在の位置を予測することができる。そこで、この通信遅延を含むこれらの遅延を考慮して遅延量Tdを予測して補償することで、図20に示すように、遠隔ユーザの話し声や歩行音を最適な位置(遅延補償した位置)に定位させて再生することができる。つまり、ユーザに遅延を感じない体験をさせることができる。なお、この例の場合の座標は、実空間の座標だけでなく、VR空間でのコントローラなどによる位置変化に対して適用してもよい。本例において、複数の遠隔ユーザの音像を定位させてもよい。
 また、例えば、上述した実施形態では、再生装置および端末装置のうちの何れか1つにセンサ部を設ける構成について例示した。例えば、再生システム1では、再生装置2にセンサ部21を設けていた。しかしながら、センサ部は、再生装置および端末装置の両方に設けて各センサ部から出力されるセンサ値を用いて頭の向きを推測するようにしてもよい。この場合、例えば、以下のような応用が可能である。ユーザが電車やバスなどの乗り物に乗っているときに、乗り物がカーブを曲がると、例えば、再生装置だけで頭角度を計算すると、頭が回転したように誤検出する可能性がある。これに対し、上述したように、再生装置および端末装置の両方で頭角度を計算する場合には、両者のセンサ値の差分を取って補正することで、頭が動いているのか体全体が動いているのかを推測することができ、乗り物が曲がっただけの場合に音像定位の処理が誤作動することを防止することができる。なお、ユーザが持ち歩けるサーバ装置ならば、端末装置と同様にサーバ装置にセンサ部21を設けてもよい。
 また、例えば、上述した実施形態では、音像定位を行うものについて例示したが、定位の対象は音に限らない。例えば、映像、振動、力覚などに適用してもよい。これにより、例えば、ゲームなどにおける遠隔の様々なイベントの遅延を補償することができる。つまり、聴覚以外の視覚、触覚などの感覚を用いるものに適用してもよい。また、聴覚と視覚の両方を用いるなど、複数の感覚を用いるものに適用してもよい。例えば、上述した音像定位は、スマートフォンやARグラスなどの画面に画像として位置を表示してもよい。この場合、表示に対しても上述した遅延予測を適用することができる。さらに、遅延をわざと増加させて動き感を出してもよい。
 なお、本開示は、以下のような構成も採ることができる。
(1)
 観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する処理を行う制御部を有する
 情報処理装置。
(2)
 前記再生部は、ユーザの頭部に装着されて音を出力するものであり、
 前記センサ部は、前記ユーザの位置をセンシングするものであり、
 前記制御部は、前記センシングデータに基づいて前記全体の遅延量の経過後の前記ユーザの頭の位置を算出し、算出した前記頭の位置に応じた音像定位処理をオーディオ信号に行うことで前記再生信号を生成する
 (1)に記載の情報処理装置。
(3)
 前記制御部は、前記再生システムの現在の状態を表す状態情報と、予め設定されている前記再生システムの各状態での遅延量を表す設定情報とを取得し、前記状態情報によって表される前記再生システムの現在の状態の遅延量を前記設定情報から読み出し、読み出した遅延量を用いて前記予測を行う
 (1)または(2)に記載の情報処理装置。
(4)
 前記状態情報は、前記センサ部および前記再生部間において無線通信を行う場合における前記無線通信の設定に関する情報を含む
 (3)に記載の情報処理装置。
(5)
 前記状態情報は、前記センサ部を有する装置、当該情報処理装置および前記再生部を有する装置の機種に関する情報を含む
 (3)または(4)に記載の情報処理装置。
(6)
 前記制御部は、前記全体の遅延量が所定の閾値よりも小さい場合には前記遅延の補償を行わない
 (3)から(5)のうちの何れかに記載の情報処理装置。
(7)
 前記制御部は、前記全体の遅延量が所定時間を超える場合には前記予測が困難であると判定する
 (3)から(6)のうちの何れかに記載の情報処理装置。
(8)
 前記制御部は、前記観察対象の動きを算出し、算出した値が、激しい動きであるとみなす所定の閾値以上である場合には前記予測が困難であると判定する
 (3)から(7)のうちの何れかに記載の情報処理装置。
(9)
 前記センサ部は、複数のセンサを有しており、
 前記制御部は、前記予測が困難である場合に使用するセンサを変更する
 (3)から(8)のうちの何れかに記載の情報処理装置。
(10)
 前記制御部は、前記予測が困難である場合に予測量の短縮または予測オフへの切り替えを行う
 (3)から(9)のうちの何れかに記載の情報処理装置。
(11)
 前記制御部は、前記予測が困難である場合に前記再生信号の生成よりも遅延が少ない低品質の再生信号を生成するモードに切り替える
 (3)から(10)のうちの何れかに記載の情報処理装置。
(12)
 前記制御部は、前記全体の遅延量が、予め設定されている予測量の上限を超える場合には前記予測量の上限まで遅延を補償する
 (3)から(11)のうちの何れかに記載の情報処理装置。
(13)
 前記再生部は、ユーザの頭部に装着されて音を出力するものであり、
 前記センサ部は、前記ユーザの位置をセンシングするものであり、
 前記制御部は、前記センシングデータに基づいて前記全体の遅延量の経過後の前記ユーザの位置を算出し、算出した前記ユーザの位置に応じた音像定位処理をオーディオ信号に行うことで前記再生信号を生成し、
 前記予測量の上限は、前記ユーザの位置が前記音像定位処理により音像を定位させた位置を向くまでの量である
 (12)に記載の情報処理装置。
(14)
 前記制御部は、事前に実測された値によって前記全体の遅延量を予測する
 (1)または(2)に記載の情報処理装置。
(15)
 観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する
 処理を行う情報処理方法。
(16)
 観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する
 処理をコンピュータに実行させるプログラム。
 1,1A~1F・・・再生システム、2,2A,2B,2D,2E・・・再生装置、4,4A,4B・・・端末装置、3,3C・・・サーバ装置、21,21B・・・センサ部、22,22A,28・・・再生部、25,25D・・・右側再生装置、27・・・左側再生装置、43・・・位置計算部、44,44A,44B,44D,44E・・・遅延補償部、45・・・音源位置生成部、46・・・再生信号生成部、100・・・コンピュータ、101・・・制御部

Claims (16)

  1.  観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する処理を行う制御部を有する
     情報処理装置。
  2.  前記再生部は、ユーザの頭部に装着されて音を出力するものであり、
     前記センサ部は、前記ユーザの位置をセンシングするものであり、
     前記制御部は、前記センシングデータに基づいて前記全体の遅延量の経過後の前記ユーザの頭の位置を算出し、算出した前記頭の位置に応じた音像定位処理をオーディオ信号に行うことで前記再生信号を生成する
     請求項1に記載の情報処理装置。
  3.  前記制御部は、前記再生システムの現在の状態を表す状態情報と、予め設定されている前記再生システムの各状態での遅延量を表す設定情報とを取得し、前記状態情報によって表される前記再生システムの現在の状態の遅延量を前記設定情報から読み出し、読み出した遅延量を用いて前記予測を行う
     請求項1に記載の情報処理装置。
  4.  前記状態情報は、前記センサ部および前記再生部間において無線通信を行う場合における前記無線通信の設定に関する情報を含む
     請求項3に記載の情報処理装置。
  5.  前記状態情報は、前記センサ部を有する装置、当該情報処理装置および前記再生部を有する装置の機種に関する情報を含む
     請求項3に記載の情報処理装置。
  6.  前記制御部は、前記全体の遅延量が所定の閾値よりも小さい場合には前記遅延の補償を行わない
     請求項3に記載の情報処理装置。
  7.  前記制御部は、前記全体の遅延量が所定時間を超える場合には前記予測が困難であると判定する
     請求項3に記載の情報処理装置。
  8.  前記制御部は、前記観察対象の動きを算出し、算出した値が、激しい動きであるとみなす所定の閾値以上である場合には前記予測が困難であると判定する
     請求項3に記載の情報処理装置。
  9.  前記センサ部は、複数のセンサを有しており、
     前記制御部は、前記予測が困難である場合に使用するセンサを変更する
     請求項3に記載の情報処理装置。
  10.  前記制御部は、前記予測が困難である場合に予測量の短縮または予測オフへの切り替えを行う
     請求項3に記載の情報処理装置。
  11.  前記制御部は、前記予測が困難である場合に前記再生信号の生成よりも遅延が少ない低品質の再生信号を生成するモードに切り替える
     請求項3に記載の情報処理装置。
  12.  前記制御部は、前記全体の遅延量が、予め設定されている予測量の上限を超える場合には前記予測量の上限まで遅延を補償する
     請求項3に記載の情報処理装置。
  13.  前記再生部は、ユーザの頭部に装着されて音を出力するものであり、
     前記センサ部は、前記ユーザの位置をセンシングするものであり、
     前記制御部は、前記センシングデータに基づいて前記全体の遅延量の経過後の前記ユーザの位置を算出し、算出した前記ユーザの位置に応じた音像定位処理をオーディオ信号に行うことで前記再生信号を生成し、
     前記予測量の上限は、前記ユーザの位置が前記音像定位処理により音像を定位させた位置を向くまでの量である
     請求項12に記載の情報処理装置。
  14.  前記制御部は、事前に実測された値によって前記全体の遅延量を予測する
     請求項1に記載の情報処理装置。
  15.  観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する
     処理を行う情報処理方法。
  16.  観察対象の位置をセンシングするセンサ部と、前記センサ部のセンシングデータに基づいて生成される再生信号を再生する再生部とを有する再生システムの状態に応じて変化する、前記センサ部によるセンシングから前記再生部による再生までの間に生じ得る全体の遅延量を予測し、予測した前記全体の遅延量の遅延を補償して前記再生信号を生成する
     処理をコンピュータに実行させるプログラム。
PCT/JP2022/006051 2021-08-10 2022-02-16 情報処理装置、情報処理方法およびプログラム WO2023017622A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023541203A JPWO2023017622A1 (ja) 2021-08-10 2022-02-16

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021130552 2021-08-10
JP2021-130552 2021-08-10

Publications (1)

Publication Number Publication Date
WO2023017622A1 true WO2023017622A1 (ja) 2023-02-16

Family

ID=85199736

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/006051 WO2023017622A1 (ja) 2021-08-10 2022-02-16 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023017622A1 (ja)
WO (1) WO2023017622A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190335287A1 (en) * 2016-10-21 2019-10-31 Samsung Electronics., Ltd. Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same
WO2021106613A1 (ja) * 2019-11-29 2021-06-03 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190335287A1 (en) * 2016-10-21 2019-10-31 Samsung Electronics., Ltd. Method for transmitting audio signal and outputting received audio signal in multimedia communication between terminal devices, and terminal device for performing same
WO2021106613A1 (ja) * 2019-11-29 2021-06-03 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JPWO2023017622A1 (ja) 2023-02-16

Similar Documents

Publication Publication Date Title
EP3440538B1 (en) Spatialized audio output based on predicted position data
US11869475B1 (en) Adaptive ANC based on environmental triggers
US10390170B1 (en) Methods and apparatuses for implementing a head tracking headset
US20150326963A1 (en) Real-time Control Of An Acoustic Environment
US10542368B2 (en) Audio content modification for playback audio
CN113396337A (zh) 使用环境数据的音频增强
US20140153751A1 (en) Audio control based on orientation
KR20150003528A (ko) 머리 움직임을 이용한 사용자 인터페이스 방법 및 장치
US9769585B1 (en) Positioning surround sound for virtual acoustic presence
US20220394414A1 (en) Sound effect optimization method, electronic device, and storage medium
US10979236B1 (en) Systems and methods for smoothly transitioning conversations between communication channels
CN116601514A (zh) 用于使用声信标来确定设备的位置和取向的方法和系统
CN116529773A (zh) 视听呈现装置及其操作方法
JP2019208185A (ja) 情報処理装置および音発生方法
US10735885B1 (en) Managing image audio sources in a virtual acoustic environment
WO2023017622A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20210343296A1 (en) Apparatus, Methods and Computer Programs for Controlling Band Limited Audio Objects
JP7567183B2 (ja) 音入出力制御装置、音入出力制御方法、及びプログラム
WO2024189726A1 (ja) キャリブレーション装置およびキャリブレーション方法
WO2024134736A1 (ja) ヘッドマウントディスプレイ装置および立体音響の制御方法
WO2024189725A1 (ja) 情報処理装置および音響出力方法
US20240089687A1 (en) Spatial audio adjustment for an audio device
WO2021086559A1 (en) Systems and methods for classifying beamformed signals for binaural audio playback
TW202431868A (zh) 用於音訊設備的空間音訊調節
JP2021153244A (ja) 音入出力制御装置、音入出力制御方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22855688

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023541203

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22855688

Country of ref document: EP

Kind code of ref document: A1