WO2023249073A1 - 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム - Google Patents

情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023249073A1
WO2023249073A1 PCT/JP2023/023086 JP2023023086W WO2023249073A1 WO 2023249073 A1 WO2023249073 A1 WO 2023249073A1 JP 2023023086 W JP2023023086 W JP 2023023086W WO 2023249073 A1 WO2023249073 A1 WO 2023249073A1
Authority
WO
WIPO (PCT)
Prior art keywords
display device
sound source
display
information
sound
Prior art date
Application number
PCT/JP2023/023086
Other languages
English (en)
French (fr)
Inventor
晴輝 西村
愛実 田畑
Original Assignee
ピクシーダストテクノロジーズ株式会社
住友ファーマ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピクシーダストテクノロジーズ株式会社, 住友ファーマ株式会社 filed Critical ピクシーダストテクノロジーズ株式会社
Publication of WO2023249073A1 publication Critical patent/WO2023249073A1/ja

Links

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/02Viewing or reading apparatus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/38Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory with means for controlling the display position
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present disclosure relates to an information processing apparatus, a display device, an information processing method, and a program.
  • the attitude (orientation or inclination) of the HMD can be measured using an IMU (Inertial Measurement Unit) that includes a gyro sensor, an acceleration sensor, a geomagnetic sensor, and the like.
  • IMU Inertial Measurement Unit
  • the IMU has a problem in that errors occur due to drift and accumulate over time.
  • Patent Document 1 discloses a technique for correcting drift of an IMU sensor.
  • a calibration offset is generated by comparing the 3D physical position calculated by the HMD itself with position data generated by another HMD using an optical sensor and an IMU.
  • an external device equipped with another sensor that is, another HMD equipped with an optical sensor and an IMU sensor.
  • An object of the present disclosure is to provide a technique for suppressing the adverse effects caused by measurement errors in the posture of a display device worn by a user.
  • An information processing apparatus includes: a data acquisition unit that acquires sensor data indicating a change in the posture of the display device from a sensor included in a display device that can be mounted on a user's head; Based on the acquired sensor data and information indicating the direction of the sound source, a sound is emitted from the sound source at a display position within the display section of the display device that corresponds to the direction of the sound source with respect to the display device.
  • a display control means for displaying information regarding sound and correcting a deviation in a display position of information displayed by the display control means in response to a predetermined condition being satisfied regarding sensor data acquired by the data acquisition means. and a correction means.
  • FIG. 1 is a diagram showing an example of the configuration of a display device according to the present embodiment.
  • 2 is a diagram schematically showing a glass-type display device that is an example of the display device shown in FIG. 1.
  • FIG. 7 is a diagram illustrating an example of a change in a user's orientation over time when there is no drift of an IMU sensor.
  • FIG. 3 is a diagram showing an example of a screen displayed on a display when there is no drift of an IMU sensor.
  • FIG. 7 is a diagram illustrating an example of changes over time in the user's orientation and the reference direction of the IMU sensor when there is a drift of the IMU sensor.
  • FIG. 3 is a diagram showing an example of a screen displayed on a display when there is a drift of an IMU sensor.
  • FIG. 7 is a diagram illustrating an example of temporal changes in the orientation of the user and the reference direction of the IMU sensor when the drift of the IMU sensor is corrected at time tx.
  • FIG. 7 is a diagram showing an example of a screen displayed on a display when the drift of the IMU sensor is corrected at time tx.
  • FIG. 3 is a diagram showing a data structure of a sound source database according to the present embodiment. It is a flowchart of audio processing of this embodiment.
  • FIG. 3 is a diagram for explaining sound collection by a microphone.
  • FIG. 2 is a flowchart illustrating a first example of updating a reference direction in audio processing according to the present embodiment. It is a figure showing the example of a display on a display device.
  • FIG. 3 is a diagram for explaining how the user sees the image. 3 is a diagram illustrating a configuration example of an information processing system according to modification 1.
  • FIG. 7 is a diagram illustrating the appearance of a multi-microphone device according to modification 1.
  • FIG. 3 is a diagram showing an example of a screen displayed on a display when there is a drift of an IMU sensor. 12 is a flowchart of audio processing in Modification 1.
  • a coordinate system (microphone coordinate system) based on the position and orientation of a microphone set, which will be described later, may be used.
  • the microphone coordinate system has its origin at the position of the microphone set (for example, the center of gravity of a display device or multi-microphone device including the microphone set), and the x-axis and y-axis are perpendicular to each other at the origin.
  • the x+ direction is the front of the microphone set
  • the x-direction is defined as the rear of the microphone set
  • the y+ direction is defined as the left direction of the microphone set
  • the y-direction is defined as the right direction of the microphone set. do.
  • the direction in a specific coordinate system means the direction with respect to the origin of the coordinate system. If the microphone set is provided with a display device, the microphone coordinate system is dependent on the coordinate system of the display device. On the other hand, if the microphone set is separate from the display device (eg, provided in a multi-microphone device), the microphone coordinate system is independent of the coordinate system of the display device.
  • FIG. 1 is a diagram showing an example of the configuration of a display device according to this embodiment.
  • FIG. 2 is a diagram schematically showing a glass-type display device, which is an example of the display device shown in FIG.
  • the display device 1 when the display device 1 is configured to be able to be mounted on the user's head, the display device 1 may be a glass-type display device, a head-mounted display, a wearable device, or smart glasses.
  • the display device 1 may be an optical see-through glass display device, but the format of the display device 1 is not limited thereto.
  • the display device 1 may be a video see-through glass display device. That is, the display device 1 may include a camera.
  • the display device 1 may display a synthesized image obtained by synthesizing the text image generated based on voice recognition and the captured image captured by the camera on the display 102, which will be described later.
  • the captured image is an image captured in the front direction of the user, and may include an image of the speaker.
  • the display device 1 may perform AR (Augmented Reality) display by combining a text image generated based on voice recognition and a photographed image taken with a camera, for example on a smartphone, a personal computer, or a tablet terminal. .
  • the display device 1 includes a controller 10, a plurality of microphones 101, a display 102, and an IMU sensor 103. That is, the plurality of microphones 101, display 102, and IMU sensor 103 are configured as one unit. In the following description, the plurality of microphones 101 may be referred to as a "microphone set.”
  • the controller 10 is an information processing device that controls the display device 1.
  • the controller 10 is connected to a microphone 101, a display 102, and an IMU sensor 103 by wire or wirelessly.
  • the controller 10 includes a storage device 11, a processor 12, an input/output interface 13, and a communication interface 14.
  • the data includes, for example, the following data. ⁇ Databases referenced in information processing ⁇ Data obtained by executing information processing (that is, execution results of information processing)
  • the processor 12 is configured to implement the functions of the controller 10 by activating a program stored in the storage device 11.
  • Processor 12 is an example of a computer. For example, by activating a program stored in the storage device 11, the processor 12 displays an image (hereinafter referred to as a "text image") representing text corresponding to the speech sound collected by the microphone 101 at a predetermined position on the display 102. Realize the functions presented to.
  • the display device 1 may include dedicated hardware such as an ASIC or FPGA, and at least a part of the processing of the processor 12 described in this embodiment may be executed by the dedicated hardware.
  • the input/output interface 13 acquires at least one of the following. - Audio signal collected by the microphone 101 - User instructions input from an input device connected to the controller 10 - Sensor data acquired from the IMU sensor 103 (measurement results by the IMU sensor 103)
  • the input device is, for example, a microphone 101, an IMU sensor 103, a drive button, a keyboard, a pointing device, a touch panel, a remote controller, a switch, or a combination thereof.
  • the input/output interface 13 is configured to output information to an output device connected to the controller 10.
  • the output device is, for example, the display 102.
  • the microphone 101 collects sounds around the display device 1, for example.
  • the sounds collected by the microphone 101 include, for example, at least one of the following sounds. ⁇ Sounds spoken by a person ⁇ Sounds of the environment in which the display device 1 is used (hereinafter referred to as "environmental sounds")
  • the microphones 101 are arranged so as to maintain a predetermined positional relationship with each other.
  • the display 102 presents (eg, displays) an image under the control of the controller 10.
  • the display 102 may be implemented in any manner as long as it can present an image to the user.
  • the display 102 can be realized, for example, by the following implementation method. ⁇ HOE (Holographic optical element) or DOE (Diffractive optical element) using an optical element (for example, a light guide plate) ⁇ Liquid crystal display ⁇ Retinal projection display ⁇ LED (Light Emitting Diode) display ⁇ Organic EL (Electro Luminescence) display ⁇ Laser display ⁇ Using optical elements (for example, lenses, mirrors, diffraction gratings, liquid crystals, MEMS mirrors, HOE) , a display that guides light emitted from a light emitter.In particular, when using a retinal projection display, even people with amblyopia can easily observe images. Therefore, it is possible for a person suffering from both hearing loss and amblyopia to more easily recognize the arrival direction of speech
  • the IMU sensor 103 outputs sensor data indicating a change in the attitude (orientation or inclination) of the display device 1. For example, the IMU sensor 103 measures the three-dimensional inertial motion of the display device 1. The IMU sensor 103 transmits sensor data indicating measurement results to the controller 10. The controller 10 estimates the attitude of the display device 1 based on the sensor data received from the IMU sensor 103.
  • the IMU sensor 103 includes an acceleration sensor and a gyro sensor, and measures accelerations in three orthogonal axes and angular velocities around the three axes.
  • the configuration of the IMU sensor 103 is not limited to this.
  • the IMU sensor 103 may further include a 3-axis geomagnetic sensor, or the IMU sensor 103 may include a gyro sensor without an acceleration sensor. Good too.
  • the microphone set includes microphones 101-1 to 101-5.
  • Microphone 101-1 is placed at right temple 21.
  • the microphone 101-2 is placed on the right endpiece 22.
  • the microphone 101-4 is placed on the left endpiece 24.
  • Microphone 101-5 is placed at left temple 25.
  • the number and arrangement of the microphones 101 included in the microphone set in the display device 1 are not limited to the example in FIG. 2 .
  • the controller 10 is placed inside the right temple 21, for example.
  • the arrangement of the controller 10 is not limited to the example shown in FIG. 2, and the controller 10 may be configured separately from the display device 1, for example.
  • FIG. 3 is a diagram illustrating an example of a change in the user's orientation over time when there is no drift of the IMU sensor.
  • FIG. 4 is a diagram showing an example of a screen displayed on the display when there is no drift of the IMU sensor.
  • FIG. 5 is a diagram illustrating an example of changes over time in the user's orientation and the reference direction of the IMU sensor when there is a drift of the IMU sensor.
  • FIG. 6 is a diagram showing an example of a screen displayed on the display when there is a drift of the IMU sensor.
  • FIG. 7 is a diagram illustrating an example of temporal changes in the orientation of the user and the reference direction of the IMU sensor when the drift of the IMU sensor is corrected at time tx.
  • FIG. 8 is a diagram showing an example of a screen displayed on the display when the drift of the IMU sensor is corrected at time tx.
  • the user US10 moves his head between times t0 and t2, and the microphone 101 mounted on the display device 1 also moves in conjunction.
  • the direction of the sound source is estimated based on the microphone 101. Therefore, even if the sound source is completely stationary, the estimated direction of the speaker SP11 will vary depending on the movement of the user US10's head.
  • the controller 10 sets the reference direction R12 to the front direction of the user US10 at that time (i.e. , the front direction of the display device 1).
  • the controller 10 determines the local coordinate system of the display device 1 and the microphone 101 (that is, the coordinate system based on the position and orientation of the display device 1 (hereinafter, "device coordinate system"). It is possible to calculate how much the microphone coordinate system) and the microphone coordinate system) are rotated with respect to the reference coordinate system at time ti.
  • the controller 10 changes the direction of the sound source in the microphone coordinate system at time ti to the reference coordinate system based on the correspondence between the reference direction R12 and the reference coordinate system and the posture UO13(ti) of the user US10 at time ti. can be converted to the direction (angle) of the sound source at . Thereby, the controller 10 can derive the direction of the sound source in the reference coordinate system regardless of the orientation of the user US10's head.
  • the controller 10 determines that the sound source directions corresponding to the audio signals received by the microphone 101 from time t0 to time t2 are the same in the reference coordinate system.
  • the controller 10 treats "Hello”, "I'm”, and “Taro”, which are the contents of the audio signals received by the microphone 101 from time t0 to t2, as the utterance contents of a specific sound source (speaker SP11). Identify.
  • the controller 10 displays an icon IC15 representing the identified sound source (speaker SP11) and a text image TI16 representing the content of the sound (utterance) emitted from the sound source at each time ti. Images arranged at positions corresponding to the estimation result of the direction of the sound source at ti and the posture UO13(ti) of the user US10 are sequentially generated. The controller 10 sequentially displays the generated images on the display 102. As a result, information regarding the sound emitted from the sound source is displayed in the display 102 of the display device 1 at a display position corresponding to the direction of the sound source with respect to the display device 1.
  • the user US10 can determine in which direction from the user's point of view what kind of utterance was made by the speaker (in other words, what kind of sound was emitted by the sound source located in which direction). It can be easily understood. Note that displaying the icon IC15 in the image generated by the controller 10 is not essential, and the controller 10 may generate an image that does not include the icon IC15 but includes the text image TI16. The same applies to subsequent examples.
  • the controller 10 estimates the orientation UO13(t1) of the user US10 based on the reference direction RD12(1) rather than the reference direction RD12(0), the estimation result of the orientation UO13(t1) of the user US10 includes the reference direction.
  • a drift error error caused by the drift of the IMU sensor 103 corresponding to the difference between RD12(1) and reference direction RD12(0) is included. Therefore, the sound source direction of the speaker SP11 in the reference coordinate system at time t1 derived by the coordinate system transformation also includes an error.
  • the reference direction RD12(2) at time t2 further deviates from the reference direction RD12(0).
  • the controller 10 estimates the orientation UO13(t2) of the user US10 based on the reference direction RD12(2) rather than the reference direction RD12(0), the estimation result of the orientation UO13(t2) of the user US10 includes the reference direction.
  • a drift error corresponding to the difference between RD12(2) and reference direction RD12(0) is included. Therefore, the sound source direction of the speaker SP11 in the reference coordinate system at time t2 derived by the coordinate system transformation also includes an error.
  • the controller 10 determines that the sound sources that emitted the sounds corresponding to those audio signals are the same. do. Therefore, the controller 10 determines that the sound sources corresponding to the audio signals received by the microphone 101 from time t0 to t1 are the same, but the sound source corresponding to the audio signal received by the microphone 101 at time t2 is different from the above-mentioned sound source. There is a possibility that it will be determined to be different.
  • An image arranged at a position according to the estimation result of the direction of the second sound source and the posture UO13 (t2) of the user US10 is generated. Such an image may make the user think that a new speaker has appeared at time t2, but in reality, only one speaker SP11 exists, so the user may feel confused or uncomfortable by looking at the image. There is a risk of
  • the controller 10 of this embodiment updates the reference direction (that is, updates the correspondence between the reference direction and the reference coordinate system) in response to the fulfillment of a predetermined update condition regarding the sensor data acquired from the IMU sensor 103. Update.
  • the estimated drift error in the posture of the display device 1 is corrected, and accordingly, the shift in the display position of information regarding the sound emitted from the sound source is corrected, and the same sound source is incorrectly identified as different sound sources. is suppressed.
  • FIGS. 3 and 5 it is assumed that the user US10 wearing the display device 1 faces the speaker SP11 from time t0 to t2. As shown in FIG.
  • the controller 10 detects that the user has performed a predetermined gesture (for example, a nodding gesture or a tilting gesture) based on the sensor data acquired from the IMU sensor 103. Then, it is determined that the update condition is satisfied. In response to this determination, the controller 10 updates (resets) the reference direction.
  • a predetermined gesture for example, a nodding gesture or a tilting gesture
  • the controller 10 updates the reference direction RD12a(x) at time tx to the reference direction RD12b(0) corresponding to the front direction of the user US10 (that is, the front direction of the display device 1) at time tx. .
  • the reference direction RD12b(0) matches the reference direction RD12a(0). Due to the drift of the IMU sensor 103, the reference direction RD12b(1) at time t2 deviates from the reference direction RD12b(0).
  • the error between the reference direction RD12b(1) and the reference direction RD12b(0) is the error at time t2 when the reference direction is not reset (the error between the reference direction RD12(2) and the reference direction RD12 in FIG. (error between 0 and 0).
  • the controller 10 determines whether the sound sources corresponding to the audio signals received by the microphone 101 from time t0 to t2 are the same. It is determined that there is. As a result, the contents of the audio signals received by the microphone 101 from time t0 to t2, ⁇ Hello,'' ⁇ I'm,'' and ⁇ Taro,'' are all identified as the utterances of a specific sound source (speaker SP11). Ru.
  • the controller 10 displays an icon IC15 representing the identified sound source (speaker SP11) and a text image TI16 representing the content of the sound (utterance) emitted from the sound source at each time ti. Images placed at positions according to the estimation result of the direction of the sound source at ti and the orientation UO13(ti) of the user US10 are sequentially generated. The controller 10 sequentially displays the generated images on the display 102. By looking at such an image, the user US10 can determine in which direction from the user's point of view what kind of utterance was made by the speaker (in other words, what kind of sound was emitted by the sound source located in which direction). It can be easily understood.
  • the sound source database stores sound source information.
  • the sound source information is information regarding a sound source (typically, a speaker) around the microphone 101, which is identified by the controller 10.
  • the sound source database includes an "ID” field, a "name” field, an "icon” field, and a "direction” field. Each field is associated with each other.
  • the "ID" field stores the sound source ID.
  • the sound source ID is information that identifies a sound source.
  • the controller 10 detects a new sound source, it issues a new sound source ID and assigns the sound source ID to the sound source.
  • the "name" field stores sound source name information.
  • the sound source name information is information regarding the name of the sound source.
  • the controller 10 may automatically determine the sound source name information, or may set the sound source name information according to user instructions.
  • the controller 10 may assign some initial sound source name to the newly detected sound source according to a predetermined rule or randomly.
  • the icon information is information regarding the icon of the sound source.
  • the icon information may include the icon image (e.g., one of the preset icon images or a photo or drawing provided by the user), or the format of the icon (e.g., color, texture, optical effects, shape, etc.) may contain information that can identify the person.
  • the controller 10 may automatically determine the icon information or may set the icon information according to a user instruction.
  • the controller 10 may assign some initial icon to the newly detected sound source according to a predetermined rule or randomly. However, if the sound source icon is not displayed in the image presented to the user, the icon information can be omitted from the sound source information.
  • the "direction" field stores sound source direction information.
  • the sound source direction information is information regarding the direction of the sound source with respect to the microphone 101.
  • the direction of the sound source is expressed as an angle of deviation from an axis with a predetermined direction in the reference coordinate system being 0 degrees.
  • the audio processing shown in FIG. 10 is started after the power of the display device 1 is turned on and the initial settings are completed.
  • the start timing of the process shown in FIG. 10 is not limited to this.
  • the process shown in FIG. 10 may be repeatedly executed, for example, at a predetermined period, so that the user of the display device 1 can view images that are updated in real time.
  • the controller 10 acquires an audio signal via the microphone 101 (S110). Specifically, the plurality of microphones 101-1, . . . , 101-5 included in the microphone set each collect the speech sounds emitted by the speaker. Microphones 101-1 to 101-5 collect speech sounds that arrive via a plurality of paths shown in FIG. 11. The microphones 101-1 to 101-5 convert the collected speech sounds into audio signals.
  • the controller 10 After step S110, the controller 10 performs direction-of-arrival estimation (S111).
  • the storage device 11 stores a direction-of-arrival estimation model.
  • the arrival direction estimation model describes information for specifying the correlation between the spatial information included in the audio signal and the arrival direction of the speech sound.
  • the microphone set is integrated with the display device 1, and estimates the arrival direction of the speech sound emitted from the speaker PR3 to be a direction shifted by an angle A2 to the left from the x-axis. .
  • the microphone set estimates the arrival direction of the speech sound emitted by the speaker PR4 to be a direction shifted by an angle A3 to the left from the x-axis.
  • the microphone set estimates the arrival direction of the speech sound emitted by the speaker PR5 to be a direction shifted by an angle A1 to the right from the x-axis.
  • the controller 10 may determine that a nodding gesture has occurred when a pitch angle index according to sensor data acquired from the IMU sensor 103 is equal to or greater than a pitch threshold.
  • the pitch angle index may be, for example, the absolute value of the estimated pitch angle at one point in time of the orientation of the display device 1, or the statistical value of the pitch angle at multiple consecutive points in time (e.g., average value, median value, maximum value, minimum value, etc.). (value, mode, variance, or standard deviation) can be used.
  • the controller 10 may determine that a gesture of tilting the head has occurred when a roll angle index according to sensor data acquired from the IMU sensor 103 is equal to or greater than a roll threshold.
  • the controller 10 sets the condition for updating the reference direction to be that the user has performed a shaking motion in a specific direction, such as a nodding gesture or a tilting gesture.
  • a specific direction such as a nodding gesture or a tilting gesture.
  • the reference direction update conditions are not limited to this.
  • the controller 10 may determine that the user has pressed a predetermined switch included in the display device 1 as a condition for updating the reference direction. In this case, when the user notices that an error has occurred in posture estimation, he or she can face forward (with his or her face directly facing the other party) and press a predetermined switch to move toward the reference direction. can be reset to correct errors.
  • the controller 10 sets any one of the following as a new (updated) reference direction (for example, a reference direction in which the azimuth angle indicating the attitude of the display device 1 is 0 degrees).
  • a new (updated) reference direction for example, a reference direction in which the azimuth angle indicating the attitude of the display device 1 is 0 degrees.
  • ⁇ Front direction of display device 1 ⁇ Weighted average of the current (before update) reference direction and the front direction of display device 1 ⁇ Move the current (before update) reference direction closer to the front direction of display device 1 Value corrected to
  • step S202 the controller 10 ends the process of FIG. 14. Further, if the predetermined gesture is not generated in step S201, the controller 10 skips updating the reference direction (S202) and ends the process of FIG. 14.
  • the controller 10 updates the reference direction so that the larger the pitch angle index is, the closer the updated reference direction is to the front direction of the display device 1 than the pre-update reference direction. , reset the reference direction.
  • the controller 10 updates the reference direction so that the larger the above-mentioned roll angle index is, the closer the updated reference direction is to the front direction of the display device 1 with respect to the pre-update reference direction. , reset the reference direction.
  • the controller 10 updates the reference direction so that the updated reference direction matches the front direction of the display device 1 when the pitch angle index described above exceeds the first pitch threshold.
  • Reset direction The controller 10 determines that when the pitch angle index is between the first pitch threshold and the second pitch threshold, the updated reference direction is between the pre-updated reference direction and the front direction of the display device 1.
  • Reset the reference direction as follows.
  • the second pitch threshold is smaller than the first pitch threshold.
  • the controller 10 does not reset the reference direction when the pitch angle index is less than the second pitch threshold.
  • the first pitch threshold and the second pitch threshold can be determined using the same technique as the pitch threshold in the first example of updating the reference direction (S1131).
  • the controller 10 updates the reference direction so that the updated reference direction matches the front direction of the display device 1 when the roll angle index described above exceeds the first roll threshold.
  • Reset direction The controller 10 determines that when the roll angle index is between the first roll threshold and the second roll threshold, the updated reference direction is between the pre-updated reference direction and the front direction of the display device 1.
  • Reset the reference direction as follows.
  • the second roll threshold is smaller than the first roll threshold.
  • the controller 10 does not reset the reference direction when the roll angle index is less than the second roll threshold.
  • the first roll threshold and the second roll threshold can be determined using the same technique as the roll threshold in the first example of updating the reference direction (S1131).
  • step S1132 the controller 10 executes coordinate system transformation (S1132). Specifically, the controller 10 converts the target direction estimation result (the sound source direction in the microphone coordinate system) obtained in step S111 into the reference coordinate based on the measurement result obtained in step S1130 and the posture estimation result of the display device 1. Convert to the direction of the sound source in the system.
  • coordinate system transformation S1132
  • the controller 10 executes a match determination (S1133). Specifically, the controller 10 determines whether the sound source corresponding to the target direction is the same as the identified sound source. As an example, the controller 10 compares the result of converting the target direction to the sound source direction in the reference coordinate system with the sound source direction information (FIG. 9) about the identified sound source. Then, when the controller 10 determines that the converted target direction matches any of the sound source direction information regarding the identified sound sources, the controller 10 associates the target direction with the (identified) sound source having matching sound source direction information. The sound source is treated as a matching sound source.
  • the controller 10 determines that the converted target direction does not match any of the sound source direction information regarding the identified sound sources, the controller 10 detects that a new sound source exists in the target direction.
  • the fact that the converted target direction matches the sound source direction information includes at least that the converted target direction matches the direction indicated by the sound source direction information, and furthermore, the converted target direction and the sound source direction information correspond to the direction indicated by the sound source direction information. It may include that the difference or ratio from the indicated direction is within a permissible range.
  • step S1133 the controller 10 assigns a new sound source ID (S1134). Specifically, the controller 10 assigns a new sound source ID to information regarding the sound emitted from the sound source corresponding to the target direction (for example, a voice recognition result). Further, the controller 10 adds a record corresponding to this new sound source ID to the sound source database (FIG. 9).
  • step S1133 the controller 10 assigns a matching sound source ID (S1135). Specifically, the controller 10 adds a sound source ID that identifies the sound source to information (for example, a voice recognition result) regarding the sound emitted from the sound source corresponding to the target direction.
  • step S1134 or step S1135 the controller 10 ends the process of FIG. 13.
  • step S112 the controller 10 executes audio signal extraction (S113).
  • a beamforming model is stored in the storage device 11.
  • the beamforming model describes information for specifying the correlation between a predetermined direction and parameters for forming directivity with a beam in that direction.
  • forming directivity is a process of amplifying or attenuating sound in a specific direction of arrival.
  • the controller 10 calculates parameters for forming a directivity with a beam in the direction of arrival by inputting the direction of arrival estimated in S111 into the beamforming model.
  • the controller 10 inputs the calculated angle A1 into the beamforming model and calculates parameters for forming a directivity with a beam in a direction shifted by an angle A1 to the right from the x-axis. do.
  • the controller 10 inputs the calculated angle A2 into the beamforming model and calculates parameters for forming a directivity having a beam in a direction shifted by the angle A2 to the left from the x-axis.
  • the controller 10 inputs the calculated angle A3 into the beamforming model and calculates parameters for forming a directivity having a beam in a direction shifted by the angle A3 to the left from the x-axis.
  • the controller 10 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A1.
  • the controller 10 extracts, from the acquired audio signals, an audio signal for the speech sound coming from the sound source in the direction corresponding to the angle A1, by synthesizing the amplified or attenuated audio signals.
  • the controller 10 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A2.
  • the controller 10 extracts, from the acquired audio signal, an audio signal for the speech sound coming from the sound source in the direction corresponding to the angle A2, by synthesizing the amplified or attenuated audio signals.
  • the controller 10 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A3.
  • the controller 10 extracts, from the acquired audio signal, an audio signal for the speech sound coming from the sound source in the direction corresponding to the angle A3, by synthesizing the amplified or attenuated audio signals.
  • the storage device 11 stores a speech recognition model.
  • the speech recognition model describes information for specifying the correlation between a speech signal and text for the speech signal.
  • the speech recognition model is, for example, a trained model generated by machine learning.
  • the voice recognition model may be stored in an external device (for example, a cloud server) that the controller 10 can access via a network (for example, the Internet).
  • the controller 10 determines the text corresponding to the input voice signal by inputting the voice signal extracted in step S113 to the voice recognition model.
  • the controller 10 may select the speech recognition engine based on the identification result of the sound source corresponding to the speech signal.
  • the controller 10 determines the text corresponding to the input audio signal by inputting the audio signals extracted for angles A1 to A3 into the audio recognition model.
  • step S114 the controller 10 executes text image generation (S115). Specifically, the controller 10 generates a text image representing the text based on the result of the voice recognition process in step S114.
  • step S115 the controller 10 determines the display mode (S116). Specifically, the controller 10 determines in what manner the display image including the text image generated in step S115 is to be displayed on the display 102.
  • step S116 the controller 10 executes image display (S117). Specifically, the processor 12 displays a display image on the display 102 according to the display mode determined in step S116.
  • FIG. 15 is a diagram illustrating a display example on a display device.
  • FIG. 16 is a diagram for explaining the appearance in the user's field of view.
  • the controller 10 determines the display position of the text image on the display unit of the display device 1 based on at least the direction of the sound source in the reference coordinate system and the posture of the user (that is, the measurement result by the IMU sensor 103).
  • the horizontal display position of the text image will be explained.
  • the images of the speakers P2 to P4 drawn with broken lines in FIG. 15 represent the real images seen by the user P1 through the display 102.
  • the text images T1 to T3 depicted in FIG. 15 represent images displayed on the display 102 and seen by the user P1, and do not exist in real space.
  • the image positions of the field of view viewed through the display 102-1 and the field of view viewed through the display 102-2 differ from each other depending on parallax.
  • the controller 10 determines, as the display position of the text image, a position that corresponds to the direction of the sound source that emitted the sound related to the text image and the posture of the user. More specifically, the controller 10 determines the display position of the text image T1 corresponding to the sound (speech sound of the speaker P2) coming from the direction of the angle A1 with respect to the display device 1, based on the angle seen from the viewpoint of the user P1. The position is determined to be visible in the direction corresponding to A1.
  • the controller 10 changes the display position of the text image T2 corresponding to the sound (speech sound of the speaker P3) arriving from the direction of the angle A2 with respect to the display device 1 in the direction corresponding to the angle A2 when viewed from the viewpoint of the user P1. Decide on a position where it can be seen.
  • the controller 10 displays the display position of the text image T3 corresponding to the voice (speech sound of the speaker P4) coming from the direction of the angle A3 with respect to the display device 1 in the direction corresponding to the angle A3 when viewed from the viewpoint of the user P1. Decide on a position where it can be seen.
  • angles A1 to A3 here represent azimuth angles.
  • text images T1 to T3 are displayed on the display 102 at display positions that correspond to the direction of each sound source in the reference coordinate system and the posture of the user.
  • the text image T1 representing the content of the statement by the speaker P2 is presented to the user P1 of the display device 1 together with the image of the speaker P2 that is visible through the display 102.
  • a text image T2 representing the content of the speech by the speaker P3 is presented to the user P1 together with an image of the speaker P3 that is visible through the display 102.
  • a text image T3 representing the content of the speech by the speaker P4 is presented to the user P1 together with an image of the speaker P4 that is visible through the display 102.
  • the horizontal display position of the text image displayed on the display 102 is determined according to the estimation result of the direction of the sound source in the reference coordinate system.
  • the display 102 is configured so that the image of the speaker and the text image of the content of the statement appear in the same direction as viewed from the user P1.
  • the display position of the text image is changed.
  • the controller 10 may estimate the attitude of the display device 1 based on the acquired sensor data. Based on the estimated posture and information indicating the direction of the sound source, the controller 10 displays the sound emitted from the sound source at a display position within the display 102 of the display device 1 that corresponds to the direction of the sound source with respect to the display device 1. Information regarding the sound played may also be displayed. Thereby, the display position of information regarding the sound emitted from the sound source is linked to the attitude of the display device 1, so that it is possible to assist the user in grasping the relationship between the display position of the information and the direction of the sound source.
  • the controller 10 may correct the shift in the display position of the information regarding the sound by correcting the drift error of the estimated posture. Thereby, it is possible to suppress the adverse effects of drift errors on the display position of information regarding sound.
  • the controller 10 may correct the drift error of the estimated attitude by updating the reference direction of the azimuth of the estimated attitude so that it approaches the front direction of the display device 1 at the time when a predetermined condition is satisfied. .
  • the updated reference direction approaches the front direction of the display device 1 at the time when the predetermined condition was satisfied, so that the negative effects of drift errors on the display position of sound information can be effectively suppressed. can.
  • the predetermined condition may include a condition that the roll angle index according to the acquired sensor data is equal to or greater than a roll threshold.
  • the controller 10 may update the reference direction so that the reference direction coincides with the front direction when the pitch angle index exceeds the first pitch threshold. Thereby, when the user performs a motion such as nodding his head, the reference direction can be reset to match the front of the user at the time when the user performed the motion.
  • the controller 10 determines whether the updated reference direction is the same as the pre-updated reference direction and the front direction.
  • the reference direction may be updated so that the direction is between the two, or the reference direction may not be updated when the pitch angle index is less than the second pitch threshold.
  • the reference direction can be reset to be closer to the front of the user at the time the user performed the motion, and the user's nodding motion is slightly In this case, the reference direction is maintained, so the update frequency of the reference direction can be optimized.
  • the controller 10 may present information that prompts the user wearing the display device 1 to perform a predetermined swinging motion, and may determine the pitch threshold based on sensor data acquired after presenting the information. Thereby, it is possible to determine a pitch threshold value according to the characteristics of the pitch angle at the time of a predetermined swinging motion of the user, so that the occurrence of the motion can be detected with higher accuracy.
  • the controller 10 acquires information indicating the direction of the sound source with respect to a microphone set including a plurality of microphones 101 included in the display device 1, and based on the information and the estimated orientation (of the display device 1), the controller 10 determines the reference coordinate system.
  • the direction of the sound source may be identified.
  • the controller 10 displays the sound emitted from the sound source at a display position within the display 102 of the display device 1 that corresponds to the direction of the sound source with respect to the display device 1. You may also display information regarding.
  • the information regarding the sound emitted from the sound source may include text obtained by performing speech recognition on the sound picked up by the microphone set. Thereby, the user can understand the content of the utterance of the speaker serving as the sound source by looking at the displayed information.
  • the display device 1 may be a glass-type display device, and the display 102 is placed within the visual field of the user wearing the display device 1. This makes it easier for the user to understand the displayed information.
  • Modification 1 is an example in which a multi-microphone device separate from a display device includes a microphone set.
  • the information processing system 200 shown in FIG. 17 acquires audio using the multi-microphone device 30, and displays a text image corresponding to the acquired audio on the display device 2 in a manner that allows the direction of arrival of the audio to be identified. It is configured as follows.
  • the form of the display device 2 includes, for example, at least one of the following types. ⁇ Glass-type display device ⁇ Head-mounted display ⁇ PC ⁇ Tablet terminal
  • the information processing system 200 includes a display device 2 and a multi-microphone device 30.
  • the display device 2 includes a controller 10, a display 102, and an IMU sensor 103.
  • Communication between the multi-microphone device 30 and the display device 2 is realized, for example, by a USB connection, a Bluetooth (registered trademark) connection, or a connection via a network such as Wi-Fi or a mobile network.
  • FIG. 18 is a diagram showing the appearance of a multi-microphone device according to modification 1.
  • the multi-microphone device 30 includes a microphone set including a plurality of microphones 31.
  • the multi-microphone device 30 includes five microphones 31-1, . . . , 31-5 (hereinafter simply referred to as microphones 31 unless otherwise distinguished).
  • the multi-microphone device 30 generates an audio signal by receiving (collecting) sound emitted from a sound source using microphones 31-1, . . . , 31-5.
  • the multi-microphone device 30 estimates the direction of arrival of the sound (that is, the direction of the sound source) in the microphone coordinate system.
  • the multi-mic device 30 performs beamforming processing.
  • the multi-microphone device 30 executes some or all of the audio signal acquisition (S110), direction of arrival estimation (S111), and audio signal extraction (S113) of the audio signal processing shown in FIG. It can be equipped with functions for
  • the multi-microphone device 30 can include a processor, a storage device, and a communication interface or input/output interface for performing these processes.
  • the microphone 31 collects sounds around the multi-microphone device 30, for example.
  • the sounds collected by the microphone 31 include, for example, at least one of the following sounds. ⁇ Speech sounds by a person ⁇ Sounds of the environment in which the multi-microphone device 30 is used
  • the multi-microphone device 30 has a mark 31a on the surface of the casing that indicates the reference direction of the multi-microphone device 30 (for example, the front (that is, the x+ direction), but may be in another predetermined direction). It is attached. Thereby, the user can easily recognize the orientation of the multi-microphone device 30 from visual information. Note that the means for recognizing the orientation of the multi-microphone device 30 is not limited to this.
  • the mark 31a may be integrated with the housing of the multi-microphone device 30.
  • FIG. 19 is a diagram showing an example of a screen displayed on the display when there is a drift of the IMU sensor.
  • the display device 2 of Modification 1 can also display the same UI (User Interface) screen as the display device 1 of this embodiment.
  • the multi-microphone device 30 does not move in conjunction with the user's posture, so the correspondence between the microphone coordinate system and the reference coordinate system remains constant unless the multi-microphone device 30 is moved. Therefore, the controller 10 identifies and maintains the attitude of the microphone set in the reference coordinate system at a certain point in time.
  • the controller 10 determines the direction in the reference coordinate system based on the direction of the sound source with respect to the microphone set (sound arrival direction) and the attitude of the microphone set in the reference coordinate system. Identify the direction of the sound source.
  • the controller 10 Based on the sound source direction in the reference coordinate system and the estimated orientation of the display device 2, the controller 10 displays the sound emitted from the sound source at a display position in the display 102 that corresponds to the direction of the sound source with respect to the display device 2. Display information about.
  • the drift of the IMU sensor 103 does not affect the estimation result of the direction of the sound source in the reference coordinate system, so a situation in which the same speaker is identified as different sound sources does not occur.
  • the display position of information regarding the sound emitted from the sound source may become inappropriate.
  • the controller 10 displays an icon IC15 representing the identified first sound source and a text image TI16 representing the content of the sound (utterance) emitted from the sound source (speaker SP11) at time ti. Images arranged at positions according to the estimation result of the direction of the sound source and the posture UO13(ti) of the user US10 are sequentially generated. However, if the drift error becomes large, the estimation result of the user's posture UO13(ti) becomes inaccurate, so the display positions of the icon IC15 and the text image TI16 are determined when the user's posture is accurately estimated.
  • position PO17 that is, the position where the actual sound source exists in the user's field of view.
  • information regarding the sound emitted from the sound source is placed in a position that corresponds to a direction far away from the actual direction of the sound source, so the user may feel confused or uncomfortable when looking at the image. There is a risk.
  • the controller 10 of the first modification updates the reference direction (that is, updates the correspondence between the reference direction and the reference coordinate system) when a predetermined update condition is satisfied, thereby preventing the user from accumulating drift errors.
  • the estimation error of the pose can be suppressed.
  • the display position of information regarding the sound emitted from the sound source can be optimized.
  • FIG. 20 is a flowchart of audio processing according to modification 1.
  • the audio processing shown in FIG. 20 is started after the display device 2 and multi-microphone device 30 are powered on and the initial settings are completed.
  • the start timing of the process shown in FIG. 20 is not limited to this.
  • the process shown in FIG. 20 may be repeatedly executed, for example, at a predetermined period, so that the user of the display device 2 can view images that are updated in real time.
  • the processor included in the multi-microphone device 30 inputs the audio signals received from the microphones 31-1 to 31-5 into the arrival direction estimation model, thereby calculating the speech sounds collected by the microphones 31-1 to 31-5.
  • the direction of arrival (that is, the direction of the source of the speech sound with respect to the multi-microphone device 30) is estimated.
  • the processor for example, in the microphone coordinate system, moves the predetermined direction (in the first modification, the front (x+ direction) of the multi-microphone device 30) determined based on the microphones 31-1 to 31-5 to 0. Express the direction of arrival of the speech sound by the declination angle from the axis defined as degrees.
  • the processor included in the multi-microphone device 30 inputs the estimated direction of arrival into the beamforming model to calculate parameters for forming a directivity with a beam in the direction of arrival.
  • the controller 10 executes the process shown in FIG. 13. First, the controller 10 acquires measurement results (S1130) and updates the reference direction (S1131), as in the present embodiment.
  • step S112 the controller 10 executes voice recognition processing (S114), text image generation (S115), display mode determination (S116), and image display (S117), as in the present embodiment.
  • Each step of the above information processing can be executed by any of the display device 1, display device 2, controller 10, and multi-microphone device 30.
  • the controller 10 of Modification 1 may acquire a multi-channel audio signal generated by the multi-microphone device 30, and estimate the direction of arrival (S131) and extract the audio signal (S132).
  • a plurality of display devices 1 or 2 may be connected to one controller 10.
  • the display mode of information may be configured to be changeable for each display device 1 or display device 2.
  • a user's instruction is input from the input device of the controller 10, but the invention is not limited to this.
  • a user's instruction may be input from an operation unit included in the display device 1 or the display device 2.
  • the display device 1 may display information regarding the sound emitted from the sound source at a display position corresponding to the reference direction.
  • information will be displayed on the right side of the display, and if the user is facing to the right of the reference direction, the information will be displayed on the display. The information is displayed on the left side of the screen. If the direction of the sound source with respect to the user matches the reference direction, information regarding the sound emitted from the sound source is displayed at the position where the sound source exists as viewed from the user.
  • the controller 10 detects a predetermined swinging motion, the controller 10 resets the reference direction to match the front direction of the display device 1. This eliminates the deviation between the direction of the sound source relative to the user and the reference direction, and accordingly corrects the deviation in the information display position.
  • Display device 2 Display device 10: Controller 11: Storage device 12: Processor 13: Input/output interface 14: Communication interface 21: Right temple 22: Right endpiece 23: Bridge 24: Left endpiece 25: Left temple 26: Rim 30 : Multi-mic device 31 : Microphone 101 : Microphone 102 : Display 103 : IMU sensor 200 : Information processing system

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示の一態様の情報処理装置は、ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するデータ取得手段と、前記データ取得手段により取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する表示制御手段と、前記データ取得手段により取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示制御手段により表示される情報の表示位置のずれを補正する補正手段と、を有する。

Description

情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム
 本開示は、情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラムに関する。
 ジャイロセンサ、加速度センサ、及び地磁気センサなどを備えるIMU(Inertial Measurement Unit)を用いて、HMD(Head Mounted Display)の姿勢(向きまたは傾き)を計測することができる。しかしながら、IMUは、ドリフトによる誤差が発生し、時間とともに誤差が蓄積されるという問題がある。特許文献1には、IMUセンサのドリフトを補正する技術について開示されている。
特開2020-102239号公報
 しかしながら、特許文献1の技術では、HMDが自ら計算した3D物理位置と、他のHMDが光学センサおよびIMUを用いて生成した位置データとを比較することで、較正オフセットが生成される。つまり、特許文献1の技術では、HMDに搭載されたIMUセンサのドリフトを補正するために、他のセンサを備えた外部装置(つまり、光学センサおよびIMUセンサを搭載した他のHMD)を利用する必要がある。
 本開示の目的は、ユーザが装着するディスプレイデバイスの姿勢の計測誤差に起因する悪影響を抑制するための技術を提供することである。
 本開示の一態様の情報処理装置は、ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するデータ取得手段と、前記データ取得手段により取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する表示制御手段と、前記データ取得手段により取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示制御手段により表示される情報の表示位置のずれを補正する補正手段と、を有する。
本実施形態のディスプレイデバイスの構成例を示す図である。 図1に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの概要を示す図である。 IMUセンサのドリフトがない場合のユーザの向きの時間変化の例を示す図である。 IMUセンサのドリフトがない場合にディスプレイに表示される画面の例を示す図である。 IMUセンサのドリフトがある場合のユーザの向きおよびIMUセンサの基準方向の時間変化の例を示す図である。 IMUセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。 IMUセンサのドリフトを時刻txにおいて補正した場合のユーザの向きおよびIMUセンサの基準方向の時間変化の例を示す図である。 IMUセンサのドリフトを時刻txにおいて補正した場合にディスプレイに表示される画面の例を示す図である。 本実施形態の音源データベースのデータ構造を示す図である。 本実施形態の音声処理のフローチャートである。 マイクロホンによる集音を説明するための図である。 音源の方向を説明するための図である。 本実施形態の音声処理における音源の識別の詳細を例示するフローチャートである。 本実施形態の音声処理における基準方向の更新の第1例を示すフローチャートである。 ディスプレイデバイスにおける表示例を表す図である。 ユーザの視界における見え方を説明するための図である。 変形例1の情報処理システムの構成例を示す図である。 変形例1のマルチマイクデバイスの外観を示す図である。 IMUセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。 変形例1の音声処理のフローチャートである。
 以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
 以降の説明において、後述するマイクロホン・セットの位置及び向きを基準とする座標系(マイク座標系)を用いることがある。マイク座標系は、マイクロホン・セットの位置(例えばマイクロホン・セットを備えるディスプレイデバイスまたはマルチマイクデバイスの重心位置)を原点とし、当該原点においてx軸およびy軸が直交する。マイク座標系において、x+方向をマイクロホン・セットの前方としたとき、x-方向をマイクロホン・セットの後方、y+方向をマイクロホン・セットの左方向、y-方向をマイクロホン・セットの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。マイクロホン・セットがディスプレイデバイスに備えられる場合に、マイク座標系は、ディスプレイデバイスの座標系に従属する。他方、マイクロホン・セットがディスプレイデバイスから分離している(例えば、マルチマイクデバイスに備えられる)場合に、マイク座標系は、ディスプレイデバイスの座標系とは独立である。
(1)ディスプレイデバイスの構成
 本実施形態のディスプレイデバイスの構成を説明する。図1は、本実施形態のディスプレイデバイスの構成例を示す図である。図2は、図1に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの概要を示す図である。
 図1に示されるディスプレイデバイス1は、音声を取得し、且つ、取得した音声に対応するテキスト画像を、その音声の到来方向を識別可能な態様で表示するように構成される。
 ディスプレイデバイス1の形態は、例えば、以下の少なくとも1つを含む。
 ・グラス型ディスプレイデバイス
 ・ヘッドマウントディスプレイ
 ・PC
 ・タブレット端末
 一例として、ディスプレイデバイス1をユーザの頭部に装着可能であるように構成する場合に、ディスプレイデバイス1は、グラス型ディスプレイデバイス、ヘッドマウントディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス1は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス1の形式はこれに限定されない。例えば、ディスプレイデバイス1はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス1はカメラを備えてもよい。そしてディスプレイデバイス1は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、後述するディスプレイ102に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス1は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよい。
 図1に示されるように、ディスプレイデバイス1は、コントローラ10と、複数のマイクロホン101と、ディスプレイ102と、IMUセンサ103とを備える。すなわち、複数のマイクロホン101と、ディスプレイ102と、IMUセンサ103とは、一体となって構成される。以降の説明において、複数のマイクロホン101を「マイクロホン・セット」ということがある。
 コントローラ10は、ディスプレイデバイス1を制御する情報処理装置である。コントローラ10は、有線又は無線でマイクロホン101、ディスプレイ102、およびIMUセンサ103と接続される。
 コントローラ10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14と、を備える。
 記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
 プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
 データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
 プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、コントローラ10の機能を実現するように構成される。プロセッサ12は、コンピュータの一例である。例えば、プロセッサ12は、記憶装置11に記憶されたプログラムを起動することで、マイクロホン101で集音した発話音に対応するテキストを表す画像(以下「テキスト画像」という)をディスプレイ102の所定の位置へ提示する機能を実現する。なお、ディスプレイデバイス1がASICやFPGAなどの専用のハードウェアを有し、本実施形態において説明するプロセッサ12の処理の少なくとも一部が専用のハードウェアにより実行されてもよい。
 入出力インタフェース13は、以下の少なくとも1つを取得する。
 ・マイクロホン101で集音された音声信号
 ・コントローラ10に接続される入力デバイスから入力されたユーザの指示
 ・IMUセンサ103から取得したセンサデータ(IMUセンサ103による計測結果)
 入力デバイスは、例えば、マイクロホン101、IMUセンサ103、駆動ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せである。
 また、入出力インタフェース13は、コントローラ10に接続される出力デバイスに情報を出力するように構成される。出力デバイスは、例えば、ディスプレイ102である。
 通信インタフェース14は、ディスプレイデバイス1と図示されない外部装置(例えば、サーバ、又は携帯端末)との間の通信を制御するように構成される。
 マイクロホン101は、例えば、ディスプレイデバイス1の周辺の音を収音する。マイクロホン101により集音される音には、例えば以下の少なくとも1つの音声が含まれる。
 ・人物による発話音
 ・ディスプレイデバイス1が使用される環境の音(以下「環境音」という。)
 各マイクロホン101は、互いに所定の位置関係を保つように配置される。
 ディスプレイ102は、コントローラ10による制御に従い、画像を提示(例えば、表示)する。ディスプレイ102は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ102は、例えば、以下の実現方法により実現可能である。
 ・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
 ・液晶ディスプレイ
 ・網膜投影ディスプレイ
 ・LED(Light Emitting Diode)ディスプレイ
 ・有機EL(Electro Luminescence)ディスプレイ
 ・レーザディスプレイ
 ・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
 特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
 IMUセンサ103は、ディスプレイデバイス1の姿勢(向き又は傾き)の変化を示すセンサデータを出力する。例えば、IMUセンサ103は、ディスプレイデバイス1の3次元の慣性運動に関する計測を行う。IMUセンサ103は、計測結果を示すセンサデータをコントローラ10へ送信する。コントローラ10は、IMUセンサ103から受信したセンサデータに基づいてディスプレイデバイス1の姿勢を推定する。本実施形態において、IMUセンサ103は、加速度センサとジャイロセンサを有し、直交3軸の加速度と、当該3軸周りの角速度とを計測する。ただし、IMUセンサ103の構成はこれに限定されず、例えばIMUセンサ103が3軸の地磁気センサをさらに有していてもよいし、IMUセンサ103が加速度センサを備えずにジャイロセンサを備えていてもよい。
 図2に示されるように、ディスプレイデバイス1がグラス型ディスプレイデバイスである場合、ディスプレイデバイス1は、右テンプル21と、右ヨロイ22と、ブリッジ23と、左ヨロイ24と、左テンプル25と、リム26と、を備える。ディスプレイデバイス1は、ユーザが装着可能である。
 図2の例では、マイクロホン・セットは、マイクロホン101-1~101-5を備える。
 マイクロホン101-1は、右テンプル21に配置される。
 マイクロホン101-2は、右ヨロイ22に配置される。
 マイクロホン101-4は、左ヨロイ24に配置される。
 マイクロホン101-5は、左テンプル25に配置される。
 ただし、ディスプレイデバイス1におけるマイクロホン・セットに含まれるマイクロホン101の数及び配置は図2の例に限定されない。
 ディスプレイデバイス1がグラス型ディスプレイデバイスである場合、ディスプレイ102は、透過性を有する部材(例えば、ガラス、プラスチック、及び、ハーフミラーの少なくとも1つ)である。この場合、ディスプレイ102は、グラス型ディスプレイデバイスを装着したユーザの視野内に配置される。
 ディスプレイ102-1~102-2は、リム26により支持される。ディスプレイ102-1は、ユーザがディスプレイデバイス1を装着した際にユーザの右眼前に位置するように配置される。ディスプレイ102-2は、ユーザがディスプレイデバイス1を装着した際にユーザの左眼前に位置するように配置される。
 ディスプレイ102は、コントローラ10による制御に従い、画像を提示する。例えば、右テンプル21の裏側に配置される非図示の投影器からディスプレイ102-1へ画像が投影され、左テンプル25の裏側に配置される非図示の投影器からディスプレイ102-2へ画像が投影される。これにより、ディスプレイ102-1及びディスプレイ102―2は画像を提示する。ユーザは、画像を視認すると同時に、ディスプレイ102-1及びディスプレイ102―2を透過した景色も視認することが可能である。
 なお、ディスプレイデバイス1が画像を提示する方法は上記の例に限定されない。例えば、ディスプレイデバイス1は、投影器からユーザの眼に画像を直接投影してもよい。
 図2に示されるようにディスプレイデバイス1がグラス型ディスプレイデバイスである場合、コントローラ10は、例えば、右テンプル21の内側に配置される。ただし、コントローラ10の配置は図2の例に限定されず、例えばコントローラ10がディスプレイデバイス1と別体として構成されていてもよい。
 IMUセンサ103は、ブリッジ23に配置される。ただし、IMUセンサ103の配置は図2の例に限定されず、IMUセンサ103は、ユーザの装着時においてディスプレイデバイス1(より具体的には、ディスプレイデバイス1が備えるディスプレイ102)と所定の位置関係を保つように配置されていればよい。
(2)実施形態の一態様
 本実施形態の一態様について説明する。図3は、IMUセンサのドリフトがない場合のユーザの向きの時間変化の例を示す図である。図4は、IMUセンサのドリフトがない場合にディスプレイに表示される画面の例を示す図である。図5は、IMUセンサのドリフトがある場合のユーザの向きおよびIMUセンサの基準方向の時間変化の例を示す図である。図6は、IMUセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。図7は、IMUセンサのドリフトを時刻txにおいて補正した場合のユーザの向きおよびIMUセンサの基準方向の時間変化の例を示す図である。図8は、IMUセンサのドリフトを時刻txにおいて補正した場合にディスプレイに表示される画面の例を示す図である。
 図3に示すように、ディスプレイデバイス1を装着したユーザUS10が、時刻t0~t2に亘って、話者SP11と相対したとする。コントローラ10は、音源(例えば話者SP11)から発せられた音に基づく音声信号のマイクロホン101による受信結果に基づいて、マイク座標系における当該音の到来方向(つまり、音源の方向)を逐次推定する。
 ユーザUS10は、時刻t0~t2の間に頭部を動かしており、ディスプレイデバイス1に搭載されたマイクロホン101も連動して動く。音源の方向は、マイクロホン101を基準に推定される。故に、音源が完全に静止していたとしても、話者SP11の方向の推定結果はユーザUS10の頭部の動きに依存して変動することになる。
 コントローラ10は、IMUセンサ103から取得したセンサデータに基づいて、各時刻tiにおけるユーザUS10の姿勢(つまり、ディスプレイデバイス1およびマイクロホン101の姿勢)UO13(ti)を推定する。ここで、i=0,1,または2である。ユーザUS10の姿勢UO13(ti)は、基準方向R12に対するユーザUS10の正面方向(つまり、ディスプレイデバイス1の正面方向)の角度(例えば方位角)によって表現される。基準方向R12は、コントローラ10により推定されたディスプレイデバイス1の姿勢が基準値(例えば方位角0度)を示すときのディスプレイデバイス1の正面方向である。姿勢推定の誤差が発生しない場合、基準方向R12は、ユーザUS10の向き(つまり、ディスプレイデバイス1の向き)に依存しない基準座標系(絶対座標系)における特定の方向を指し示す。つまり、基準方向R12と基準座標系との間には対応関係が定められる。基準方向R12は、特定の時点においてコントローラ10により設定される。例えば、ユーザUS10が話者SP11と対話を始める際(t0より前の時点)に、ユーザUS10によるディスプレイデバイス1に対する操作に応じて基準方向R12が設定される。具体的には、ユーザUS10が話者SP11に正対した状態でディスプレイデバイス1に対して基準方向を設定する操作を行うと、コントローラ10は基準方向R12をその時点のユーザUS10の正面方向(つまり、ディスプレイデバイス1の正面方向)に設定する。コントローラ10は、ユーザUS10の姿勢UO13(ti)に基づいて、ディスプレイデバイス1およびマイクロホン101のローカル座標系(つまり、ディスプレイデバイス1の位置及び向きを基準とする座標系(以下、「デバイス座標系」という)およびマイク座標系)が時刻tiにおいて基準座標系に対してどれだけ回転しているかを計算することができる。
 マイクロホン・セットがディスプレイデバイス1に備えられるので、マイク座標系は、デバイス座標系に従属する。故に、コントローラ10は、基準方向R12と基準座標系との間の対応関係と時刻tiにおけるユーザUS10の姿勢UO13(ti)とに基づいて、時刻tiにおけるマイク座標系における音源の方向を基準座標系における音源の方向(角度)に変換可能である。これにより、コントローラ10は、ユーザUS10の頭部の向きに関わらず、基準座標系における音源の方向を導出することができる。コントローラ10は、時刻t0~t2にマイクロホン101が受信した音声信号に対応する音源方向が基準座標系において同一であると判定する。そのためコントローラ10は、時刻t0~t2においてマイクロホン101が受信した音声信号の内容である「Hello」、「I’m」、「Taro」を、いずれも特定の音源(話者SP11)の発言内容として特定する。
 図4に示すように、コントローラ10は、識別された音源(話者SP11)を表すアイコンIC15と各時刻tiに音源から発せられた音(発言)の内容を示すテキスト画像TI16とを、当該時刻tiにおける当該音源の方向の推定結果とユーザUS10の姿勢UO13(ti)とに応じた位置に配置した画像を逐次生成する。コントローラ10は、生成した画像をディスプレイ102に逐次表示する。これにより、ディスプレイデバイス1のディスプレイ102内において、ディスプレイデバイス1に対する音源の方向に応じた表示位置に、音源から発される音に関する情報が表示される。かかる画像を見ることで、ユーザUS10は自分から見てどの方向に存在する話者がどのような発言をしたか(換言すると、どの方向に存在する音源がどのような音を発したか)を容易に把握することができる。なお、コントローラ10が生成する画像におけるアイコンIC15の表示は必須ではなく、コントローラ10はアイコンIC15を含まずテキスト画像TI16を含む画像を生成してもよい。以降の例においても同様である。
 一方、以下に説明するように、IMUセンサ103のドリフトがある場合に、同一の音源が異なる音源として誤って識別されるおそれがある。図3の例と同様に、ディスプレイデバイス1を装着したユーザUS10が、時刻t0~t2に亘って、話者SP11と相対したとする。図5に示すように、IMUセンサ103のドリフトによって、時刻t1においてコントローラ10が姿勢推定の基準とする基準方向RD12(1)は、時刻t0における基準方向RD12(0)から乖離する。コントローラ10は、ユーザUS10の姿勢UO13(t1)を、基準方向RD12(0)ではなく基準方向RD12(1)を基準として推定するので、ユーザUS10の姿勢UO13(t1)の推定結果には基準方向RD12(1)と基準方向RD12(0)との差に相当するドリフト誤差(IMUセンサ103のドリフトに起因する誤差)が含まれる。故に、座標系の変換によって導出される時刻t1での基準座標系における話者SP11の音源方向にも、誤差が含まれることになる。同様に、IMUセンサ103のドリフトによって、時刻t2における基準方向RD12(2)は、基準方向RD12(0)からさらに乖離する。コントローラ10は、ユーザUS10の姿勢UO13(t2)を、基準方向RD12(0)ではなく基準方向RD12(2)を基準として推定するので、ユーザUS10の姿勢UO13(t2)の推定結果には基準方向RD12(2)と基準方向RD12(0)との差に相当するドリフト誤差が含まれる。故に、座標系の変換によって導出される時刻t2での基準座標系における話者SP11の音源方向にも、誤差が含まれることになる。
 コントローラ10は、複数の音声信号それぞれに対応する音源方向が基準座標系において近似する(所定の範囲内にある)場合に、それらの音声信号に対応する音を発した音源が同一であると判断する。そのため、コントローラ10は、時刻t0~t1にマイクロホン101が受信した音声信号に対応する音源は同一であると判定するが、時刻t2にマイクロホン101が受信した音声信号に対応する音源は上記音源とは異なると判定する可能性がある。これにより、時刻t0~t1においてマイクロホン101が受信した音声信号の内容である「Hello」、「I’m」は第1音源の発言内容として特定される。他方、時刻t2においてマイクロホン101が受信した音声信号の内容である「Taro」は第1音源とは異なる第2音源の発言内容として特定される。
 図6に示すように、コントローラ10は図4と同様に、識別された第1音源を表すアイコンIC15と、時刻t0,t1に第1音源から発せられた音(発言)の内容を示すテキスト画像TI16を、時刻t0,t1における当該第1音源の方向の推定結果とユーザUS10の姿勢UO13(t0),UO13(t1)とに応じた位置に配置した画像を逐次生成する。一方、時刻t2において、コントローラ10は、新たに識別された第2音源を表すアイコンIC17と、時刻t2に第2音源から発せられた音(発言)の内容を示すテキスト画像TI18を、時刻t2における当該第2音源の方向の推定結果とユーザUS10の姿勢UO13(t2)とに応じた位置に配置した画像を生成する。かかる画像は、時刻t2に新たな話者が現れたとユーザに認識させかねないが、現実には1人の話者SP11しか存在しないから、ユーザは当該画像を見ることで混乱したり違和感を覚えたりするおそれがある。
 本実施形態のコントローラ10は、IMUセンサ103から取得されたセンサデータに関して所定の更新条件が成立したことに応じて、基準方向を更新(つまり、基準方向と基準座標系との間の対応関係を更新)する。これにより、推定されるディスプレイデバイス1の姿勢のドリフト誤差が補正され、それに伴い、音源から発された音に関する情報の表示位置のずれが補正されるとともに、同一の音源が異なる音源として誤って識別されることが抑制される。図3および図5の例と同様に、ディスプレイデバイス1を装着したユーザUS10が、時刻t0~t2に亘って、話者SP11と相対したとする。図7に示すように、IMUセンサ103のドリフトによって、時刻t1における基準方向RD12a(1)は、時刻t0における基準方向RD12a(0)から乖離する。時刻t1と時刻t2の間の時刻txにおいて、コントローラ10は、ユーザが所定のジェスチャ(例えば、うなずくジェスチャ、または首を傾げるジェスチャ)を行ったことをIMUセンサ103から取得したセンサデータに基づいて検出すると、更新条件が成立したと判定する。この成立判定に応じて、コントローラ10は、基準方向を更新(リセット)する。具体的には、コントローラ10は、時刻txにおける基準方向RD12a(x)を、時刻txにおけるユーザUS10の正面方向(つまり、ディスプレイデバイス1の正面方向)に対応する基準方向RD12b(0)に更新する。時刻txにおいてユーザUS10がSP11に正対している場合、基準方向RD12b(0)は基準方向RD12a(0)と一致する。IMUセンサ103のドリフトによって、時刻t2における基準方向RD12b(1)は、基準方向RD12b(0)から乖離する。しかしながら、基準方向RD12b(1)と基準方向RD12b(0)との間の誤差は、基準方向のリセットをしなかった場合の時刻t2における誤差(図5における基準方向RD12(2)と基準方向RD12(0)との間の誤差)に比べて抑制される。
 この結果、時刻t0~時刻t2において推定された基準座標系における音源の方向の変動幅が小さくなるので、コントローラ10は、時刻t0~t2にマイクロホン101が受信した音声信号に対応する音源が同一であると判定する。これにより、時刻t0~t2においてマイクロホン101が受信した音声信号の内容である「Hello」、「I’m」、「Taro」は、いずれも特定の音源(話者SP11)の発言内容として特定される。
 図8に示すように、コントローラ10は、識別された音源(話者SP11)を表すアイコンIC15と各時刻tiに音源から発せられた音(発言)の内容を示すテキスト画像TI16とを、当該時刻tiにおける当該音源の方向の推定結果とユーザUS10の姿勢UO13(ti)に応じた位置に配置した画像を逐次生成する。コントローラ10は、生成した画像をディスプレイ102に逐次表示する。かかる画像を見ることで、ユーザUS10は自分から見てどの方向に存在する話者がどのような発言をしたか(換言すると、どの方向に存在する音源がどのような音を発したか)を容易に把握することができる。
(3)データベース
 本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置11に記憶される。
(3-1)音源データベース
 本実施形態の音源データベースについて説明する。図9は、本実施形態の音源データベースのデータ構造を示す図である。
 音源データベースには、音源情報が格納される。音源情報は、コントローラ10によって識別された、マイクロホン101の周囲の音源(典型的には、話者)に関する情報である。
 図9に示すように、音源データベースは、「ID」フィールドと、「名称」フィールドと、「アイコン」フィールドと、「方向」フィールドとを含む。各フィールドは、互いに関連付けられている。
 「ID」フィールドには、音源IDが格納される。音源IDは、音源を識別する情報である。コントローラ10は、新たな音源を検出すると、新規の音源IDを発行し、当該音源IDを当該音源に割り当てる。
 「名称」フィールドには、音源名情報が格納される。音源名情報は、音源の名称に関する情報である。コントローラ10は、音源名情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。コントローラ10は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期音源名称を割り当てることができる。
 「アイコン」フィールドには、アイコン情報が格納される。アイコン情報は、音源のアイコンに関する情報である。一例として、アイコン情報は、アイコン画像(例えば、プリセットアイコン画像のいずれか、またはユーザによって提供された写真、もしくは絵)、またはアイコンの書式(例えば、色、テクスチャ、光学的効果、形状、など)を特定可能な情報を含むことができる。コントローラ10は、アイコン情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。コントローラ10は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期アイコンを割り当てることができる。
 ただし、ユーザ向けに提示する画像に音源のアイコンを表示しない場合には、アイコン情報を音源情報から省略することができる。
 「方向」フィールドは、音源方向情報が格納される。音源方向情報は、マイクロホン101に対する音源の方向に関する情報である。一例として、音源の方向は、基準座標系における所定の方向を0度とする軸からの偏角として表現される。
 その他、音源情報は、音源距離情報を含んでもよい。音源距離情報は、マイクロホン101から音源までの距離に関する情報である。また、音源方向情報および音源距離情報は、音源位置情報として表現することもできる。音源位置情報は、マイクロホン101に対する音源の相対位置(つまり、マイク座標系における音源の座標)に関する情報である。
(4)情報処理
 本実施形態の情報処理について説明する。
(4-1)音声処理
 本実施形態の音声処理について説明する。図10は、本実施形態の音声処理のフローチャートである。図11は、マイクロホンによる集音を説明するための図である。図12は、音源の方向を説明するための図である。図13は、本実施形態の音声処理における音源の識別の詳細を例示するフローチャートである。図14は、本実施形態の音声処理における基準方向の更新の第1例を示すフローチャートである。
 図10に示す音声処理は、ディスプレイデバイス1の電源がONになり、かつ初期設定が完了した後に開始される。ただし、図10に示す処理の開始タイミングはこれに限定されない。図10に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これによりディスプレイデバイス1のユーザはリアルタイムに更新される画像を閲覧することができる。
 コントローラ10は、マイクロホン101を介して音声信号の取得(S110)を実行する。
 具体的には、マイクロホン・セットの備える複数のマイクロホン101-1,・・・、101-5は、話者から発せられる発話音をそれぞれ集音する。マイクロホン101-1~101-5は、図11に示される複数のパスを介して到来した発話音を集音する。マイクロホン101-1~101-5は、集音した発話音を音声信号へ変換する。
 コントローラ10は、マイクロホン101-1~101-5から、話者PR3,PR4,及びPR5の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン101-1~101-5から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報(例えば遅延や位相変化)が含まれている。
 ステップS110の後、コントローラ10は、到来方向の推定(S111)を実行する。
 記憶装置11には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。
 到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)などが用いられる。
 コントローラ10は、到来方向推定モデルに、マイクロホン101-1~101-5から受信した音声信号を入力することで、マイクロホン101-1~101-5により集音された発話音の到来方向(つまり、マイクロホン・セットに対する発話音の音源の方向)を推定する。このとき、コントローラ10は、例えば、マイク座標系において、マイクロホン101-1~101-5を基準として定められた所定の方向(本実施形態においては、マイクロホン・セットの前方(x+方向))を0度とする軸からの偏角で発話音の到来方向を表現する。図12に示される例では、マイクロホン・セットはディスプレイデバイス1と一体になっており、話者PR3から発せられた発話音の到来方向を、x軸から左方向に角度A2ずれた方向と推定する。マイクロホン・セットは、話者PR4から発せられた発話音の到来方向を、x軸から左方向に角度A3ずれた方向と推定する。マイクロホン・セットは、話者PR5から発せられた発話音の到来方向を、x軸から右方向に角度A1ずれた方向と推定する。
 ステップS111の後、コントローラ10は、音源の識別(S112)を実行する。
 具体的には、コントローラ10は、ステップS111において取得した音源の方向(以下、「対象方向」という)の推定結果に基づいて、マイクロホン・セットの周囲に存在する音源を識別する。
 一例として、コントローラ10は、図13に示す処理を実行する。
 まず、コントローラ10は、計測結果の取得(S1130)を実行する。
 具体的には、コントローラ10は、IMUセンサ103から計測結果を取得する。
 ステップS1130の後に、コントローラ10は、基準方向の更新(S1131)を実行する。
 具体的には、コントローラ10は、ステップS1130において取得した計測結果に基づいて、必要に応じて、基準方向を更新する。
 基準方向の更新(S1131)の第1例として、コントローラ10は、図14に示す処理を行う。
 まず、コントローラ10は、ジェスチャ判定(S201)を実行する。
 具体的には、コントローラ10は、ステップS1130において取得した計測結果に基づいて、所定の首振りジェスチャが発生したか否かを判定する。コントローラ10は、計測結果に対して、例えばパターンマッチングを行うことでかかる判定を実現してもよいし、学習済みモデルを用いてかかる判定を実現してもよい。
 所定の首振りジェスチャは、うなずくジェスチャ、首を傾げるジェスチャ、またはその他のジェスチャの少なくとも1つを含むことができる。人間の身体の構造上、うなずくジェスチャの間、ユーザの頭部(つまりディスプレイデバイス1)のピッチ角は大きく変動するが、ディスプレイデバイス1のヨー角(鉛直軸周りの回転角であり、ユーザの方位に相当する)は比較的安定する。また、人間の身体の構造上、首を傾げるジェスチャの間、ディスプレイデバイス1のロール角は大きく変動するが、ディスプレイデバイス1のヨー角は比較的安定する。
 例えば、コントローラ10は、IMUセンサ103から取得したセンサデータに応じたピッチ角指標がピッチ閾値以上であった場合に、うなずくジェスチャが発生したと判定してもよい。ピッチ角指標としては、例えば、推定されたディスプレイデバイス1の姿勢の1時点におけるピッチ角の絶対値、または連続する複数時点におけるピッチ角の統計値(例えば、平均値、中央値、最大値、最小値、最頻値、分散、または標準偏差)の絶対値を用いることができる。また、コントローラ10は、IMUセンサ103から取得したセンサデータに応じたロール角指標がロール閾値以上であった場合に、首を傾げるジェスチャが発生したと判定してもよい。ロール角指標としては、例えば、推定されたディスプレイデバイス1の姿勢の1時点におけるロール角の絶対値、または連続する複数時点のロール角の統計値(例えば、平均値、中央値、最大値、最小値、最頻値、分散、または標準偏差)の絶対値を用いることができる。
 ピッチ閾値は、全ユーザに共通の値が用いられてもよいし、ユーザを属性(例えば、人種、体格、性別、年齢層など)に基づいて分類したクラスごとに共通の値が用いられてもよいし、各ユーザに対して個別に定められてもよい。一例として、コントローラ10は、ユーザにうなずくジェスチャを行うように促す情報の提示を行い、情報を提示した後にIMUセンサ103から取得したセンサデータに応じたピッチ角の値に基づいてピッチ閾値を決定してもよい。同様に、ロール閾値は、全ユーザに共通の値が用いられてもよいし、ユーザを属性に基づいて分類したクラスごとに共通の値が用いられてもよいし、各ユーザに対して個別に定められてもよい。一例として、コントローラ10は、ユーザに首を傾げるジェスチャを行うように促す情報の提示を行い、情報を提示した後にIMUセンサ103から取得したセンサデータに応じたロール角の値に基づいてロール閾値を決定してもよい。
 上述のように、コントローラ10は、うなずくジェスチャ又は首を傾げるジェスチャなどの特定方向の首振り動作をユーザが行ったと判定したことを、基準方向を更新するための条件とする。これは、人間の身体の構造上、大きくうなずくジェスチャを行ったり大きく首を傾げるジェスチャを行ったりするためには、ユーザの顔がユーザの胴体の正面方向を向いていることが必要だからである。つまり、ユーザの胴体が対話の相手に正対しているという前提において、ユーザがうなずくジェスチャ又は首を傾げるジェスチャを行ったことが検出された場合、その検出時点においてユーザの顔の向き(すなわちディスプレイデバイス1の向き)が対話の相手に正対している可能性が高い。そして、図7を用いて説明したように、ユーザの顔の向きが対話の相手に正対している状態で基準方向がリセットされることで、ディスプレイデバイス1の姿勢推定の誤差が好適に抑制される。
 ただし、基準方向の更新条件はこれに限定されない。例えば、コントローラ10は、ディスプレイデバイス1が備える所定のスイッチをユーザが押したと判定したことを、基準方向を更新するための条件としてもよい。この場合、ユーザは、姿勢推定の誤差が発生していることに気づいた際に、正面方向を向いて(顔の向きを対話の相手に正対させて)所定のスイッチ押すことで、基準方向をリセットして誤差を補正できる。
 ステップS201において所定のジェスチャが発生したと判定した場合に、コントローラ10は、基準方向のリセット(S202)を実行する。
 具体的には、コントローラ10は、所定の首振りジェスチャ時のディスプレイデバイス1の姿勢推定結果(特に、ヨー角の推定結果)に基づいて、当該ジェスチャの検知時のディスプレイデバイス1の正面方向に近づくように、基準方向をリセットする。ディスプレイデバイス1の正面方向は、例えば以下のいずれかとして特定される。
・所定の首振りジェスチャの検知時における1時点の推定結果
・所定の首振りジェスチャの検知時における連続する複数時点の推定結果の統計値(例えば、平均値、中央値、または最頻値)
 一例として、コントローラ10は、以下のいずれか1つを、新たな(更新後の)基準方向(例えば、ディスプレイデバイス1の姿勢を示す方位角が0度となる基準方向)として設定する。
・ディスプレイデバイス1の正面方向
・現行の(更新前の)基準方向と、ディスプレイデバイス1の正面方向との加重平均
・現行の(更新前の)基準方向を、ディスプレイデバイス1の正面方向に近づくように補正した値
 ステップS202の完了を以て、コントローラ10は、図14の処理を終了する。
 また、ステップS201において所定のジェスチャが発生しなかった場合に、コントローラ10は、基準方向の更新(S202)をスキップし、図14の処理を終了する。
 基準方向の更新(S1131)の第2例として、コントローラ10は、前述のピッチ角指標が大きいほど、更新後の基準方向が更新前の基準方向に対してディスプレイデバイス1の正面方向に近づくように、基準方向をリセットする。
 基準方向の更新(S1131)の第3例として、コントローラ10は、前述のロール角指標が大きいほど、更新後の基準方向が更新前の基準方向に対してディスプレイデバイス1の正面方向に近づくように、基準方向をリセットする。
 基準方向の更新(S1131)の第4例として、コントローラ10は、前述のピッチ角指標が第1ピッチ閾値を超える場合に、更新後の基準方向がディスプレイデバイス1の正面方向に一致するように基準方向をリセットする。コントローラ10は、ピッチ角指標が第1ピッチ閾値と第2ピッチ閾値との間である場合に、更新後の基準方向が更新前の基準方向とディスプレイデバイス1の正面方向との間の方向となるように当該基準方向をリセットする。ここで、第2ピッチ閾値は、第1ピッチ閾値よりも小さい。コントローラ10は、ピッチ角指標が第2ピッチ閾値未満である場合に、基準方向をリセットしない。第1ピッチ閾値および第2ピッチ閾値は、基準方向の更新(S1131)の第1例におけるピッチ閾値と同様の技法で定めることができる。
 基準方向の更新(S1131)の第5例として、コントローラ10は、前述のロール角指標が第1ロール閾値を超える場合に、更新後の基準方向がディスプレイデバイス1の正面方向に一致するように基準方向をリセットする。コントローラ10は、ロール角指標が第1ロール閾値と第2ロール閾値との間である場合に、更新後の基準方向が更新前の基準方向とディスプレイデバイス1の正面方向との間の方向となるように基準方向をリセットする。ここで、第2ロール閾値は、第1ロール閾値よりも小さい。コントローラ10は、ロール角指標が第2ロール閾値未満である場合に、基準方向をリセットしない。第1ロール閾値および第2ロール閾値は、基準方向の更新(S1131)の第1例におけるロール閾値と同様の技法で定めることができる。
 ステップS1131の後に、コントローラ10は、座標系の変換(S1132)を実行する。
 具体的には、コントローラ10は、ステップS1130において取得した計測結果、およびディスプレイデバイス1の姿勢推定結果に基づいて、ステップS111において取得した対象方向の推定結果(マイク座標系における音源方向)を基準座標系における音源方向に変換する。
 ステップS1132の後に、コントローラ10は、一致判定(S1133)を実行する。
 具体的には、コントローラ10は、対象方向に対応する音源が識別済みの音源と同一であるか否かを判定する。
 一例として、コントローラ10は、対象方向を基準座標系における音源方向に変換した結果を、識別済みの音源についての音源方向情報(図9)と比較する。そして、コントローラ10は、変換された対象方向が識別済みの音源についての音源方向情報のいずれかと適合すると判定した場合に、適合した音源方向情報を持つ(識別済みの)音源と当該対象方向に対応する音源とを一致する音源として扱う。他方、コントローラ10は、変換された対象方向が識別済みの音源についての音源方向情報のいずれとも適合しないと判定した場合に、当該対象方向に新たな音源が存在することを検出する。ここで、変換された対象方向が音源方向情報に適合することとは、少なくとも変換された対象方向が音源方向情報の示す方向に一致することを含み、さらに変換された対象方向と音源方向情報の示す方向との差または比率が許容範囲内であることを含むことができる。
 ステップS1133において一致する音源が発見されなかった場合に、コントローラ10は、新規音源IDの付与(S1134)を実行する。
 具体的には、コントローラ10は、対象方向に対応する音源から発せられた音に関する情報(例えば音声認識結果)に新たな音源IDを付与する。さらに、コントローラ10は、この新たな音源IDに対応するレコードを音源データベース(図9)に追加する。
 ステップS1133において一致する音源が発見された場合に、コントローラ10は、一致する音源IDの付与(S1135)を実行する。
 具体的には、コントローラ10は、当該音源を識別する音源IDを、対象方向に対応する音源から発せられた音に関する情報(例えば音声認識結果)に付与する。
 ステップS1134またはステップS1135の完了を以て、コントローラ10は図13の処理を終了する。
 ステップS112の後、コントローラ10は、音声信号の抽出(S113)を実行する。
 記憶装置11には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
 コントローラ10は、ビームフォーミングモデルに、S111において推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。
 図12に示される例では、コントローラ10は、計算された角度A1をビームフォーミングモデルに入力し、x軸から右方向に角度A1ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。コントローラ10は、計算された角度A2をビームフォーミングモデルに入力し、x軸から左方向に角度A2ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。コントローラ10は、計算された角度A3をビームフォーミングモデルに入力し、x軸から左方向に角度A3ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
 コントローラ10は、マイクロホン101-1~101-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。コントローラ10は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A1に対応する方向の音源から到来した発話音についての音声信号を抽出する。
 コントローラ10は、マイクロホン101-1~101-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。コントローラ10は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A2に対応する方向の音源から到来した発話音についての音声信号を抽出する。
 コントローラ10は、マイクロホン101-1~101-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。コントローラ10は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A3に対応する方向の音源から到来した発話音についての音声信号を抽出する。
 ステップS113の後、コントローラ10は、音声認識処理(S114)を実行する。
 記憶装置11には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置11の代わりに、コントローラ10がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。
 コントローラ10は、音声認識モデルに、ステップS113において抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。コントローラ10は、音声信号に対応する音源の識別結果に基づいて音声認識エンジンを選択してもよい。
 図12に示される例では、コントローラ10は、角度A1~A3について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。
 ステップS114の後、コントローラ10は、テキスト画像生成(S115)を実行する。
 具体的には、コントローラ10は、ステップS114における音声認識処理の結果に基づくテキストを表すテキスト画像を生成する。
 ステップS115の後、コントローラ10は、表示態様の決定(S116)を実行する。
 具体的には、コントローラ10は、ステップS115において生成したテキスト画像を含む表示画像を、ディスプレイ102にどのような態様で表示するかを決定する。
 ステップS116の後、コントローラ10は、画像表示(S117)を実行する。
 具体的には、プロセッサ12は、ステップS116において決定した表示態様に応じた表示画像を、ディスプレイ102に表示する。
(4-2)ディスプレイデバイスの表示例
 ディスプレイデバイスの表示例について説明する。
図15は、ディスプレイデバイスにおける表示例を表す図である。図16は、ユーザの視界における見え方を説明するための図である。
 以下では、ステップS116における表示態様の決定に応じた表示画像の例を詳細に説明する。コントローラ10は、少なくとも基準座標系における音源の方向と、ユーザの姿勢(つまり、IMUセンサ103による計測結果)とに基づいて、ディスプレイデバイス1の表示部におけるテキスト画像の表示位置を決定する。
 ここでは、テキスト画像の左右方向の表示位置について説明する。ここで、図15において破線で描かれている話者P2~P4の像は、ディスプレイ102を透過してユーザP1の目に映る実像を表したものであり、ディスプレイ102に表示される画像には含まれない。また、図15において描かれているテキスト画像T1~T3は、ディスプレイ102に表示されてユーザP1の目に映る画像を表したものであり、実空間には存在しない。なお、ディスプレイ102-1を介して見る視界とディスプレイ102-2を介して見る視界とは、視差に応じて互いに像の位置が異なる。
 図15及び図16に示すように、コントローラ10は、テキスト画像に係る音声を発した音源の方向とユーザの姿勢とに対応する位置を、テキスト画像の表示位置として決定する。より詳細には、コントローラ10は、ディスプレイデバイス1に対して角度A1の方向から到来する音声(話者P2の発話音)に対応するテキスト画像T1の表示位置を、ユーザP1の視点から見て角度A1に対応する方向に見える位置に決定する。
 コントローラ10は、ディスプレイデバイス1に対して角度A2の方向から到来する音声(話者P3の発話音)に対応するテキスト画像T2の表示位置を、ユーザP1の視点から見て角度A2に対応する方向に見える位置に決定する。
 コントローラ10は、ディスプレイデバイス1に対して角度A3の方向から到来する音声(話者P4の発話音)に対応するテキスト画像T3の表示位置を、ユーザP1の視点から見て角度A3に対応する方向に見える位置に決定する。
 なお、ここで角度A1~A3は方位角を表す。
 このように、ディスプレイ102において基準座標系における各音源の方向とユーザの姿勢とに応じた表示位置にテキスト画像T1~T3が表示される。これにより、ディスプレイデバイス1のユーザP1に対して、話者P2の発言内容を表すテキスト画像T1が、ディスプレイ102を透過して視認される話者P2の像と共に提示されることになる。また、ユーザP1に対して、話者P3の発言内容を表すテキスト画像T2が、ディスプレイ102を透過して視認される話者P3の像と共に提示されることになる。また、ユーザP1に対して、話者P4の発言内容を表すテキスト画像T3が、ディスプレイ102を透過して視認される話者P4の像と共に提示されることになる。すなわち、ディスプレイ102に表示されるテキスト画像の左右方向の表示位置は、基準座標系における音源の方向の推定結果に応じて決まる。ディスプレイデバイス1の向き(すなわちユーザP1の姿勢(顔の向き))が変わった場合、同様に発言者の像と発言内容のテキスト画像とがユーザP1から見て同じ方向に見えるように、ディスプレイ102におけるテキスト画像の表示位置が変更される。
 なお、ディスプレイデバイス1の表示部において、音源から発された音に関する情報を音源の方向に応じた位置に表示する方法は、上記の例に限定されない。例えば、ディスプレイデバイス1は、音声認識されたテキストを表示部内の所定位置に表示しつつ、各音源の方向に応じた位置に各音源に対応するシンボル画像を表示してもよい。また例えば、ディスプレイデバイス1は、ディスプレイデバイス1に対する各音源の方向を俯瞰図上で表示してもよい。
(5)小括
 以上説明したように、本実施形態のコントローラ10は、ユーザの頭部に装着可能に構成されたディスプレイデバイス1に搭載されたIMUセンサ103から、当該ディスプレイデバイス1の姿勢の変化を示すセンサデータを取得する。コントローラ10は、取得したセンサデータと音源の方向を示す情報とに基づいて、ディスプレイデバイス1のディスプレイ102内の表示位置であって当該ディスプレイデバイス1に対する音源の方向に応じた位置に、当該音源から発される音に関する情報を表示する。コントローラ10は、取得したセンサデータに関して所定の条件が成立したことに応じて、音に関する情報の表示位置のずれを補正する。これにより、音源から発せられた音に関する情報の表示位置のずれが適時に補正されるので、当該情報を適切な位置に表示することができる。
 所定の条件は、ディスプレイデバイス1を装着したユーザが所定の首振り動作を行った場合に、成立するように定められてよい。これにより、ユーザが所定の首振り動作を行った時に、音源から発せられた音に関する情報の表示位置のずれが補正されるので、ユーザに与える違和感を抑制しながら当該情報を適切な位置に表示することができる。また、ユーザが他者との会話中に不自然なデバイス操作を行うことなく、表示のずれを補正できる。
 コントローラ10は、取得したセンサデータに基づいてディスプレイデバイス1の姿勢を推定してもよい。コントローラ10は、推定した姿勢と音源の方向を示す情報とに基づいてディスプレイデバイス1のディスプレイ102内の表示位置であって当該ディスプレイデバイス1に対する音源の方向に応じた表示位置に、当該音源から発される音に関する情報を表示してもよい。これにより、音源から発せられた音に関する情報の表示位置が、ディスプレイデバイス1の姿勢に連動するので、ユーザによる情報の表示位置と音源の方向との間の関係の把握を支援することができる。
 コントローラ10は、推定した姿勢のドリフト誤差を補正することで、音に関する情報の表示位置のずれを補正してもよい。これにより、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を抑制することができる。
 コントローラ10は、推定した姿勢の方位角の基準方向を、所定の条件が成立した時点におけるディスプレイデバイス1の正面方向に近づくように更新することで、推定した姿勢のドリフト誤差を補正してもよい。これにより、更新後の基準方向が、所定の条件が成立した時点におけるディスプレイデバイス1の正面方向に近づくので、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を効果的に抑制することができる。
 所定の条件は、取得したセンサデータに応じたピッチ角の指標がピッチ閾値以上であるという条件を含んでもよい。これにより、ユーザがうなずくような動作を行ったか否かを適切に判定でき、かつユーザに与える違和感を抑制しながら、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を抑制することができる。
 所定の条件は、取得したセンサデータに応じたロール角の指標がロール閾値以上であるという条件を含んでもよい。これにより、ユーザが首を傾げるような動作を行ったか否かを適切に判定でき、かつユーザに与える違和感を抑制しながら、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を抑制することができる。
 コントローラ10は、ピッチ角の指標が大きいほど、基準方向が正面方向に近づくように、当該基準方向を更新してもよい。これにより、うなずくような動作の大小に応じて、基準方向の更新量が調整されるので、基準方向の更新がユーザに与える違和感を抑制することができる。
 コントローラ10は、ピッチ角の指標が第1ピッチ閾値を超える場合に、基準方向が正面方向に一致するように、当該基準方向を更新してもよい。これにより、ユーザが大きくうなずくような動作を行った場合に、当該動作を行った時点におけるユーザの正面に一致するように基準方向をリセットすることができる。コントローラ10は、ピッチ角の指標が第1ピッチ閾値と当該第1ピッチ閾値よりも小さい第2ピッチ閾値との間である場合に、更新後の基準方向が更新前の基準方向と正面方向との間の方向となるように、基準方向を更新してもよく、ピッチ角の指標が第2ピッチ閾値未満である場合に、基準方向を更新しなくてもよい。これにより、ユーザが中程度のうなずくような動作を行った場合に、当該動作を行った時点におけるユーザの正面に近づくように基準方向をリセットすることができ、かつユーザのうなずくような動作が僅かであった場合には基準方向は維持されるので、基準方向の更新頻度を適正化することができる。
 コントローラ10は、ディスプレイデバイス1を装着したユーザに所定の首振り動作を行うよう促す情報を提示し、当該情報を提示した後に取得されたセンサデータに基づいてピッチ閾値を決定してもよい。これにより、ユーザの所定の首振り動作時のピッチ角の特徴に応じたピッチ閾値を決定できるので、当該動作の発生をより精度良く検知することができる。
 コントローラ10は、ディスプレイデバイス1が備える複数のマイクロホン101を含むマイクロホン・セットに対する音源の方向を示す情報を取得し、当該情報と、推定した(ディスプレイデバイス1の)姿勢とに基づいて、基準座標系における音源の方向を特定してもよい。コントローラ10は、推定した姿勢と特定した方向とに基づいて、ディスプレイデバイス1のディスプレイ102内の表示位置であってディスプレイデバイス1に対する音源の方向に応じた表示位置に、当該音源から発される音に関する情報を表示してもよい。これにより、ディスプレイデバイス1がマイクロホン・セットを備える構成において、IMUセンサ103のドリフトによって、ディスプレイデバイス1の姿勢の推定結果または基準方向における音源の方向が実態と乖離するのを抑制することができる。
 音源から発される音に関する情報は、マイクロホン・セットにより収音された音声に対して音声認識を行うことで得られるテキストを含んでもよい。これにより、ユーザは表示された情報を見ることで音源としての話者の発話内容を把握することができる。
 IMUセンサ103はジャイロセンサを含んでよく、コントローラ10によって取得されるデータは角速度データを含んでもよい。これにより、ディスプレイデバイス1の角速度に関する計測結果に基づく制御を行うことができる。
 ディスプレイデバイス1はグラス型ディスプレイデバイスであってよく、ディスプレイ102は当該ディスプレイデバイス1を装着したユーザの視野内に配置される。これにより、表示される情報をユーザが把握しやすくなる。
(6)変形例
 本実施形態の変形例について説明する。
(6-1)変形例1
 変形例1について説明する。変形例1は、ディスプレイデバイスとは別体のマルチマイクデバイスがマイクロホン・セットを備える例である。
(6-1-1)情報処理システムの構成
 変形例1の情報処理システムの構成を説明する。図17は、変形例1の情報処理システムの構成例を示す図である。
 図17に示される情報処理システム200は、マルチマイクデバイス30によって音声を取得し、且つ、取得した音声に対応するテキスト画像を、その音声の到来方向を識別可能な態様でディスプレイデバイス2に表示するように構成される。
 ディスプレイデバイス2の形態は、例えば、以下の少なくとも1つを含む。
 ・グラス型ディスプレイデバイス
 ・ヘッドマウントディスプレイ
 ・PC
 ・タブレット端末
 図17に示されるように、情報処理システム200は、ディスプレイデバイス2と、マルチマイクデバイス30とを備える。ディスプレイデバイス2は、コントローラ10と、ディスプレイ102と、IMUセンサ103とを備える。マルチマイクデバイス30とディスプレイデバイス2との間の通信は、例えば、USBによる接続、Bluetooth(登録商標)による接続、または、Wi-Fi、携帯網などのネットワークを介した接続により実現される。
 マルチマイクデバイス30は、ディスプレイデバイス2から独立して設置可能である。つまり、マルチマイクデバイス30の位置および向きは、ディスプレイデバイス2の位置および向きから独立して決定することができる。
(6-1-1-1)マルチマイクデバイスの構成
 マルチマイクデバイスの構成について説明する。図18は、変形例1のマルチマイクデバイスの外観を示す図である。
 図18に示すように、マルチマイクデバイス30は、複数のマイクロホン31を含むマイクロホン・セットを備える。以下の説明では、マルチマイクデバイス30は、5つのマイクロホン31-1,・・・,31-5(以下、特に区別しない場合は単にマイクロホン31と表記する)を備えることとする。マルチマイクデバイス30は、マイクロホン31-1,・・・、31-5を用いて、音源から発せられた音を受信(集音)することで音声信号を生成する。また、マルチマイクデバイス30は、マイク座標系における音の到来方向(つまり、音源の方向)を推定する。さらに、マルチマイクデバイス30は、ビームフォーミング処理を行う。要するに、マルチマイクデバイス30は、図10に示した音声信号処理のうち音声信号の取得(S110)、到来方向の推定(S111)、および音声信号の抽出(S113)の一部または全部を実行するための機能を備えることができる。マルチマイクデバイス30は、これらの処理を行うためのプロセッサ、記憶装置、および通信インタフェースもしくは入出力インタフェースを備えることができる。
 マイクロホン31は、例えば、マルチマイクデバイス30の周辺の音を集音する。マイクロホン31により集音される音には、例えば以下の少なくとも1つの音が含まれる。
 ・人物による発話音
 ・マルチマイクデバイス30が使用される環境の音
 マルチマイクデバイス30には、例えば筐体の表面にマルチマイクデバイス30の基準方向(例えば、前方(つまり、x+方向)であるが、その他の所定の方向であってもよい)を示す目印31aが付されている。これにより、ユーザは、マルチマイクデバイス30の向きを視覚情報から容易に認識することができる。なお、マルチマイクデバイス30の向きを認識するための手段はこれに限られない。目印31aは、マルチマイクデバイス30の筐体と一体化されていてもよい。
 マルチマイクデバイス30は、当該マルチマイクデバイス30の動き及び状態を検出するためにセンサを備えることができる。
(6-1-2)変形例1の一態様
 変形例1の一態様について説明する。図19は、IMUセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。
 変形例1のディスプレイデバイス2も、本実施形態のディスプレイデバイス1と同様のUI(User Interface)画面を表示することができる。ただし、変形例1では、マルチマイクデバイス30はユーザの姿勢に連動して動くことはないので、マルチマイクデバイス30が動かされない限りマイク座標系と基準座標系との対応関係は一定である。そこで、コントローラ10は、ある時点における基準座標系におけるマイクロホン・セットの姿勢を特定して保持する。マルチマイクデバイス30から音の到来方向を取得すると、コントローラ10は、マイクロホン・セットに対する音源の方向(音の到来方向)と、基準座標系におけるマイクロホン・セットの姿勢とに基づいて、基準座標系における音源方向を特定する。そしてコントローラ10は、基準座標系における音源方向と、推定されたディスプレイデバイス2の姿勢とに基づいて、ディスプレイ102内においてディスプレイデバイス2に対する音源の方向に応じた表示位置に、音源から発される音に関する情報を表示する。変形例1では、本実施形態とは異なり、IMUセンサ103のドリフトが基準座標系における音源の方向の推定結果には影響しないので、同一話者が異なる音源として識別される事態は生じない。しかしながら、IMUセンサ103のドリフトによってユーザの姿勢の推定誤差が大きくなると、音源から発せられた音に関する情報の表示位置が不適切となるおそれがある。
 図3の例と同様に、ディスプレイデバイス2を装着したユーザUS10が、時刻t0~t2に亘って、話者SP11と相対したとする。コントローラ10は図4と同様に、識別された第1音源を表すアイコンIC15と、時刻tiに音源(話者SP11)から発せられた音(発言)の内容を示すテキスト画像TI16を、時刻tiにおける当該音源の方向の推定結果とユーザUS10の姿勢UO13(ti)とに応じた位置に配置した画像を逐次生成する。しかしながら、ドリフト誤差が大きくなると、ユーザの姿勢UO13(ti)の推定結果が不正確となるので、アイコンIC15およびテキスト画像TI16の表示位置が、ユーザの姿勢が正確に推定された場合に決定される位置PO17(すなわち、ユーザの視界において現実の音源が存在する位置)と乖離する。かかる画像では実際の音源の方向とはかけ離れた方向に対応する位置に当該音源から発せられた音に関する情報が配置されることから、ユーザは当該画像を見ることで混乱したり違和感を覚えたりするおそれがある。
 変形例1のコントローラ10は、所定の更新条件が成立する場合に、基準方向を更新(つまり、基準方向と基準座標系との間の対応関係を更新)することで、ドリフト誤差の蓄積によるユーザの姿勢の推定誤差を抑制できる。つまり、音源から発せられた音に関する情報の表示位置を適正化することができる。
(6-1-3)変形例1の情報処理
 変形例1の音声処理について説明する。図20は、変形例1の音声処理のフローチャートである。
 図20に示す音声処理は、ディスプレイデバイス2およびマルチマイクデバイス30の電源がONになり、かつ初期設定が完了した後に開始される。ただし、図20に示す処理の開始タイミングはこれに限定されない。図20に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これによりディスプレイデバイス2のユーザはリアルタイムに更新される画像を閲覧することができる。
 マルチマイクデバイス30は、マイクロホン31を介して音声信号の取得(S130)を実行する。
 具体的には、マルチマイクデバイス30の備える複数のマイクロホン31-1,・・・、31-5は、話者から発せられる発話音をそれぞれ集音する。
 ステップS130の後、マルチマイクデバイス30は、到来方向の推定(S131)を実行する。
 マルチマイクデバイス30が備える記憶装置には、本実施形態において説明した到来方向推定モデルが記憶されている。
 マルチマイクデバイス30が備えるプロセッサは、到来方向推定モデルに、マイクロホン31-1~31-5から受信した音声信号を入力することで、マイクロホン31-1~31-5により集音された発話音の到来方向(つまり、マルチマイクデバイス30に対する発話音の音源の方向)を推定する。このとき、プロセッサは、例えば、マイク座標系において、マイクロホン31-1~31-5を基準として定められた所定の方向(変形例1においては、マルチマイクデバイス30の前方(x+方向))を0度とする軸からの偏角で発話音の到来方向を表現する
 ステップS131の後、マルチマイクデバイス30は、音声信号の抽出(S132)を実行する。
 マルチマイクデバイス30が備える記憶装置には、本実施形態において説明したビームフォーミングモデルが記憶されている。
 マルチマイクデバイス30が備えるプロセッサは、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。
 マルチマイクデバイス30は、抽出した音声信号を、ステップS131において推定した当該音声信号に対応する音源の方向を示す情報(つまり、マルチマイクデバイス30に対する音源の方向の推定結果)とともに、コントローラ10へ送信する。
 ステップS132の後、コントローラ10は、音源の識別(S112)を実行する。
 具体的には、コントローラ10は、ステップS131において取得した音源の方向(以下、「対象方向」という)の推定結果をマルチマイクデバイス30から受信する。コントローラ10は、受信した推定結果に基づいて、マルチマイクデバイス30の周囲に存在する音源を識別する。
 一例として、コントローラ10は、図13に示す処理を実行する。
 まず、コントローラ10は本実施形態と同様に、計測結果の取得(S1130)、および基準方向の更新(S1131)を実行する。
 ステップS1131の後に、コントローラ10は、座標系の変換(S1132)を実行する。
 具体的には、コントローラ10は、マイク座標系と基準座標系との間の対応関係に基づいて、ステップS131において取得した対象方向の推定結果(マイク座標系における音源方向)を基準座標系における音源方向に変換する。
 ステップS1132の後に、コントローラ10は本実施形態と同様に、一致判定(S1133)と、新規音源IDの付与(S1134)または一致する音源IDの付与(S1135)とを実行する。
 ステップS1134またはステップS1135の完了を以て、コントローラ10は図13の処理を終了する。
 なお、音源の識別(S112)は、コントローラ10およびマルチマイクデバイス30が分担して実行してもよい。例えば、マルチマイクデバイス30が座標系の変換(S1132)、一致判定(S1133)、新規音源IDの付与(S1134)、および一致する音源IDの付与(S1135)を実行し、コントローラ10が、計測結果の取得(S1130)、および基準方向の更新(S1131)を実行してもよい。
 ステップS112の後、コントローラ10は本実施形態と同様に、音声認識処理(S114)、テキスト画像生成(S115)、表示態様の決定(S116)、および画像表示(S117)を実行する。
 なお、図20では音声信号の抽出(S132)の後に音源識別(S112)を行う例を示したが、図10を用いて説明した例と同様に、音源識別の後に音声信号の抽出が行われてもよい。この場合、マルチマイクデバイス30が音源識別の処理を実行してもよい。
(6-1-3)小括
 以上説明したように、変形例1のコントローラ10は、ディスプレイデバイス2とは分離して設けられた複数のマイクロホン31を含むマイクロホン・セットに対する音源の方向を示す情報を取得する。コントローラ10は、取得した情報と基準座標系におけるマイクロホン・セットの姿勢とに基づいて、基準座標系における音源の方向を特定する。コントローラ10は、推定した(ディスプレイデバイス2の)姿勢と特定した方向とに基づいて、ディスプレイデバイス2のディスプレイ102内の表示位置であって当該ディスプレイデバイス2に対する音源の方向に応じた表示位置に、当該音源から発される音に関する情報を表示する。これにより、ディスプレイデバイス1とマイクロホン・セットとが分離して設けられる構成において、IMUセンサ103のドリフトによって、ディスプレイデバイス1の姿勢の推定結果が実態と乖離するのを抑制することができる。
(7)その他の変形例
 記憶装置11は、ネットワークNWを介して、コントローラ10と接続されてもよい。
 上記の情報処理の各ステップは、コントローラ10及び図示しないサーバによって分担して実行されてもよい。
 上記説明では、ディスプレイデバイス1またはディスプレイデバイス2とコントローラ10とが一体化される例を示した。しかしながら、コントローラ10と、ディスプレイデバイス1またはディスプレイデバイス2とは、互いに独立した装置として構成されてもよい。この場合に、コントローラ10は、クラウドサーバ内に存在してもよい。また、コントローラ10およびマルチマイクデバイス30が一体化されてもよい。
 上記の情報処理の各ステップは、ディスプレイデバイス1、ディスプレイデバイス2、コントローラ10及びマルチマイクデバイス30の何れでも実行可能である。例えば、変形例1のコントローラ10は、マルチマイクデバイス30によって生成されたマルチチャンネルの音声信号を取得し、到来方向の推定(S131)、および音声信号の抽出(S132)を行ってもよい。
 また、1台のコントローラ10に複数のディスプレイデバイス1またはディスプレイデバイス2が接続されてよい。この場合に、例えば、情報の表示態様は、ディスプレイデバイス1またはディスプレイデバイス2毎に変更可能に構成されてよい。
 上述した実施形態では、コントローラ10の入力デバイスからユーザの指示が入力される例を説明したが、これに限らない。ディスプレイデバイス1またはディスプレイデバイス2の備える操作部からユーザの指示が入力されてもよい。
 コントローラ10またはマルチマイクデバイス30による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。コントローラ10またはマルチマイクデバイス30は、例えば、以下の方法により音声信号を抽出してもよい。
 ・Frostビームフォーマ
 ・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
 ・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
 上記説明では、音源の方向を推定し、推定した方向とIMUセンサ103による計測結果(すなわちユーザの向き)とに応じた位置に当該音源から発せられた音に関する情報を表示する例を説明した。しかしながら、音源の方向を動的に推定することは必須ではなく、各音源に対して既定の方向が事前に割り当てられてもよい。この場合に、コントローラ10は、各音源に割り当てられた既定の方向とIMUセンサ103のセンサデータに基づいて推定したディスプレイデバイス1の姿勢とに基づいて決定した位置に当該音源から発せられた音に関する情報を表示してもよい。
 例えば、ディスプレイデバイス1は、基準方向に対応する表示位置に、音源から発せられた音に関する情報を表示してもよい。この場合、ディスプレイデバイス1を装着したユーザが基準方向よりも左の方向を向いていれば、ディスプレイの右寄りの位置に情報が表示され、ユーザが基準方向より右の方向を向いていれば、ディスプレイの左寄りの位置に情報が表示される。ユーザに対する音源の方向と基準方向とが一致していれば、ユーザから見て音源が存在する位置にその音源から発せられた音に関する情報が表示される。そして、IMUセンサ103のドリフトによりユーザに対する音源の方向と基準方向とがずれた場合、すなわち情報の表示位置にずれが生じた場合、ユーザは顔の向きを音源に正対させた状態で所定の首振り動作を行う。コントローラ10は所定の首振り動作を検出すると、ディスプレイデバイス1の正面方向に合わせて基準方向をリセットする。これにより、ユーザに対する音源の方向と基準方向とのずれが解消され、それに伴って情報の表示位置のずれが補正される。
 以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
1     :ディスプレイデバイス
2     :ディスプレイデバイス
10    :コントローラ
11    :記憶装置
12    :プロセッサ
13    :入出力インタフェース
14    :通信インタフェース
21    :右テンプル
22    :右ヨロイ
23    :ブリッジ
24    :左ヨロイ
25    :左テンプル
26    :リム
30    :マルチマイクデバイス
31    :マイクロホン
101   :マイクロホン
102   :ディスプレイ
103   :IMUセンサ
200   :情報処理システム

Claims (19)

  1.  ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するデータ取得手段と、
     前記データ取得手段により取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する表示制御手段と、
     前記データ取得手段により取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示制御手段により表示される情報の表示位置のずれを補正する補正手段と、
     を有する情報処理装置。
  2.  前記ディスプレイデバイスを装着したユーザが所定の首振り動作を行った場合に、前記所定の条件が成立する、請求項1に記載の情報処理装置。
  3.  前記データ取得手段により取得されたセンサデータに基づいて前記ディスプレイデバイスの姿勢を推定する推定手段を有し、
     前記表示制御手段は、前記推定手段により推定された姿勢と前記音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する、
     請求項1に記載の情報処理装置。
  4.  前記補正手段は、前記推定手段により推定される姿勢のドリフト誤差を補正することで、前記表示制御手段により表示される情報の表示位置のずれを補正する、請求項3に記載の情報処理装置。
  5.  前記補正手段は、前記推定手段による推定される姿勢の方位角の基準方向を、前記所定の条件が成立した時点における前記ディスプレイデバイスの正面方向に近づくように更新することで、前記推定手段により推定される姿勢のドリフト誤差を補正する、請求項4に記載の情報処理装置。
  6.  前記所定の条件は、前記データ取得手段により取得されたセンサデータに応じたピッチ角の指標がピッチ閾値以上であるという条件を含む、請求項5に記載の情報処理装置。
  7.  前記所定の条件は、前記データ取得手段により取得されたセンサデータに応じたロール角の指標がロール閾値以上であるという条件を含む、請求項5に記載の情報処理装置。
  8.  前記補正手段は、前記ピッチ角の指標が大きいほど前記基準方向が前記正面方向に近づくように、前記基準方向を更新する、請求項6に記載の情報処理装置。
  9.  前記補正手段は、前記ピッチ角の指標が第1ピッチ閾値を超える場合に、前記基準方向が前記正面方向に一致するように、前記基準方向を更新する、請求項6に記載の情報処理装置。
  10.  前記補正手段は、
     前記ピッチ角の指標が前記第1ピッチ閾値と前記第1ピッチ閾値よりも小さい第2ピッチ閾値との間である場合に、更新後の前記基準方向が更新前の前記基準方向と前記正面方向との間の方向となるように、前記基準方向を更新し、
     前記ピッチ角の指標が前記第2ピッチ閾値未満である場合に、前記基準方向を更新しない、
     請求項9に記載の情報処理装置。
  11.  前記ディスプレイデバイスを装着したユーザに所定の首振り動作を行うよう促す情報を提示する提示手段と、
     前記提示手段により情報を提示した後に前記データ取得手段により取得されたセンサデータに基づいて前記ピッチ閾値を決定する決定手段と、
     を有する請求項6に記載の情報処理装置。
  12.  前記ディスプレイデバイスが備える複数のマイクロホンを含むマイクロホン・セットに対する前記音源の方向を示す情報を取得する方向取得手段と、
     前記方向取得手段により取得された情報と前記推定手段により推定された姿勢とに基づいて、基準座標系における前記音源の方向を特定する特定手段と、を有し、
     前記表示制御手段は、前記推定手段により推定された姿勢と前記特定手段により特定された方向とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する、
     請求項3に記載の情報処理装置。
  13.  前記ディスプレイデバイスとは分離して設けられた複数のマイクロホンを含むマイクロホン・セットに対する前記音源の方向を示す情報を取得する方向取得手段と、
     前記方向取得手段により取得された情報と基準座標系における前記マイクロホン・セットの姿勢とに基づいて、基準座標系における前記音源の方向を特定する特定手段と、を有し、
     前記表示制御手段は、前記推定手段により推定された姿勢と前記特定手段により特定された方向とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する、
     請求項3に記載の情報処理装置。
  14.  前記表示制御手段により表示される前記音源から発される音に関する情報は、前記マイクロホン・セットにより収音された音声に対して音声認識を行うことで得られるテキストを含む、請求項12又は請求項13に記載の情報処理装置。
  15.  前記センサは、ジャイロセンサを含み、
     前記データ取得手段により取得されるセンサデータは、角速度を示すデータを含む、請求項1に記載の情報処理装置。
  16.  前記ディスプレイデバイスは、グラス型ディスプレイデバイスであり、
     前記表示部は、前記ディスプレイデバイスを装着したユーザの視野内に配置される、請求項1に記載の情報処理装置。
  17.  ユーザの頭部に装着可能なディスプレイデバイスであって、
     表示部と、
     前記ディスプレイデバイスの姿勢の変化を示すセンサデータを出力するセンサと、
     前記センサから出力されたセンサデータと音源の方向を示す情報とに基づいて、前記表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する表示制御手段と、
     前記センサから出力されたセンサデータに関して所定の条件が成立したことに応じて、前記表示制御手段により表示される情報の表示位置のずれを補正する補正手段と、
     を有するディスプレイデバイス。
  18.  コンピュータにより実行される情報処理方法であって、
     ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するステップと、
     取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示するステップと、
     取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示部に表示される情報の表示位置のずれを補正するステップと、
     を有する情報処理方法。
  19.  コンピュータに、
     ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するステップと、
     取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示するステップと、
     取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示部に表示される情報の表示位置のずれを補正するステップと、
     を実行させるためのプログラム。
PCT/JP2023/023086 2022-06-23 2023-06-22 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム WO2023249073A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022100752 2022-06-23
JP2022-100752 2022-06-23

Publications (1)

Publication Number Publication Date
WO2023249073A1 true WO2023249073A1 (ja) 2023-12-28

Family

ID=89380071

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/023086 WO2023249073A1 (ja) 2022-06-23 2023-06-22 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023249073A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257342A (ja) * 2010-06-11 2011-12-22 Nsk Ltd ヘッドトラッキング装置及びヘッドトラッキング方法
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
US20170277257A1 (en) * 2016-03-23 2017-09-28 Jeffrey Ota Gaze-based sound selection
WO2021230180A1 (ja) * 2020-05-11 2021-11-18 ピクシーダストテクノロジーズ株式会社 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257342A (ja) * 2010-06-11 2011-12-22 Nsk Ltd ヘッドトラッキング装置及びヘッドトラッキング方法
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
US20170277257A1 (en) * 2016-03-23 2017-09-28 Jeffrey Ota Gaze-based sound selection
WO2021230180A1 (ja) * 2020-05-11 2021-11-18 ピクシーダストテクノロジーズ株式会社 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP7415077B2 (ja) ディスプレイとユーザの眼との間の位置合わせを決定するためのディスプレイシステムおよび方法
CN108170279B (zh) 头显设备的眼动和头动交互方法
US20170277257A1 (en) Gaze-based sound selection
US20160117864A1 (en) Recalibration of a flexible mixed reality device
US20220283646A1 (en) Hand gesture-based emojis
US10970031B2 (en) Systems and methods configured to provide gaze-based audio in interactive experiences
JP2015536514A (ja) Imuを用いた直接ホログラム操作
US20170098330A1 (en) Method for controlling head mounted display, and program for controlling head mounted display
US11234092B2 (en) Remote inference of sound frequencies for determination of head-related transfer functions for a user of a headset
WO2017213070A1 (ja) 情報処理装置および方法、並びに記録媒体
CN113692750A (zh) 使用声音场景分析和波束形成的声传递函数个性化
JP2018055589A (ja) プログラム、物体の追跡方法、表示装置
JP2018067115A (ja) プログラム、追跡方法、追跡装置
US10824247B1 (en) Head-coupled kinematic template matching for predicting 3D ray cursors
KR20190053001A (ko) 이동이 가능한 전자 장치 및 그 동작 방법
US11670157B2 (en) Augmented reality system
WO2019155840A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US10928889B1 (en) Apparatus, system, and method for directional acoustic sensing via wearables donned by users of artificial reality systems
CN114115515A (zh) 用于帮助用户的方法和头戴式单元
US20210303258A1 (en) Information processing device, information processing method, and recording medium
WO2021230180A1 (ja) 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム
WO2020031486A1 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
US11016303B1 (en) Camera mute indication for headset user
WO2023249073A1 (ja) 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム
WO2022270455A1 (ja) 表示制御装置、表示制御方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23827255

Country of ref document: EP

Kind code of ref document: A1