WO2021230180A1 - Information processing device, display device, presentation method, and program - Google Patents

Information processing device, display device, presentation method, and program Download PDF

Info

Publication number
WO2021230180A1
WO2021230180A1 PCT/JP2021/017640 JP2021017640W WO2021230180A1 WO 2021230180 A1 WO2021230180 A1 WO 2021230180A1 JP 2021017640 W JP2021017640 W JP 2021017640W WO 2021230180 A1 WO2021230180 A1 WO 2021230180A1
Authority
WO
WIPO (PCT)
Prior art keywords
text image
display device
presentation mode
voice
arrival direction
Prior art date
Application number
PCT/JP2021/017640
Other languages
French (fr)
Japanese (ja)
Inventor
新 高橋
卓見 飯野
Original Assignee
ピクシーダストテクノロジーズ株式会社
大日本住友製薬株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピクシーダストテクノロジーズ株式会社, 大日本住友製薬株式会社 filed Critical ピクシーダストテクノロジーズ株式会社
Priority to JP2022521892A priority Critical patent/JPWO2021230180A1/ja
Publication of WO2021230180A1 publication Critical patent/WO2021230180A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • This disclosure relates to information processing devices, display devices, presentation methods, and programs.
  • Hearing aids are widely used as a device to assist hearing.
  • Hearing aid wearers may have diminished ability to grasp the direction of arrival of sound due to diminished auditory function.
  • the direction of arrival of the voice cannot be grasped, and it is difficult to establish the conversation.
  • the purpose of this disclosure is to easily recognize the direction of arrival of voice.
  • an information processing device includes means for acquiring sound collected by a plurality of microphones.
  • the information processing device includes means for estimating the arrival direction of the acquired voice.
  • the information processing device comprises means for generating a text image corresponding to the acquired voice.
  • the information processing apparatus includes means for determining the presentation mode of the text image with reference to the estimated arrival direction.
  • the information processing apparatus comprises means for presenting a text image in a determined presentation mode.
  • FIG. 1 It is a schematic diagram which shows the structure of the display device of this embodiment. It is a schematic diagram of the glass type display device which is an example of the display device shown in FIG. It is explanatory drawing of the outline of this embodiment. It is a flowchart which shows an example of the presentation process of this embodiment. It is a figure for demonstrating the collection of the utterance sound emitted from a speaker. It is a figure for demonstrating the arrival direction of an utterance sound. It is a schematic diagram which shows the presentation example of the glass type display device. It is a figure for demonstrating the field of view of a wearer. It is a schematic diagram which shows the structure of the display device of the modification 1. FIG.
  • FIG. 1 is a schematic view showing the configuration of the display device of the present embodiment.
  • FIG. 2 is a schematic diagram of a glass-type display device which is an example of the display device shown in FIG.
  • the display device 1 shown in FIG. 1 collects sound and displays a text image corresponding to the collected sound in a presentation mode according to the direction of arrival of the sound (an example of "presentation"). It is composed of.
  • the form of the display device 1 includes, for example, at least one of the following. ⁇ Glass-type display device ⁇ Mobile terminal ⁇ Conference system
  • the display device 1 includes a plurality of microphones 101, a display 102, and a controller 10.
  • the microphones 101 are arranged at a predetermined distance from each other.
  • the display device 1 when the display device 1 is a glass type display device, the display device 1 has a right temple 21, a right twist 22, a bridge 23, a left twist 24, a left temple 25, and a rim. 26 and.
  • the microphone 101-1 is arranged on the right temple 21.
  • the microphone 101-2 is arranged on the right twist 22.
  • the microphone 101-3 is arranged on the bridge 23.
  • the microphone 101-4 is arranged on the left twist 24.
  • the microphone 101-5 is arranged on the left temple 25.
  • the microphone 101 collects, for example, at least one of the following sounds. -Sound of speech by a person-Sound of the environment in which the display device 1 is used (hereinafter referred to as "environmental sound”)
  • the display 102 is a transparent member (for example, at least one of glass, plastic, and a half mirror). In this case, the display 102 is arranged at a position visible to the user wearing the glass-type display device.
  • the displays 102-1 to 102-2 are supported by the rim 26.
  • the display 102-1 is arranged so as to be located in front of the user's right eye when the user wears the display device 1.
  • the display 102-2 is arranged so as to be located in front of the user's left eye when the user wears the display device 1.
  • the display 102 presents (for example, displays) an image according to the control from the controller 10.
  • the method by which the display 102 presents an image is not limited, and any existing method may be used.
  • an image corresponding to the image light is projected onto the display 102-1 from a projector (not shown) arranged behind the right temple 21.
  • An image corresponding to the image light is projected onto the display 102-2 from a projector (not shown) arranged on the back side of the left temple 25.
  • the display 102-1 and the display 102-2 present an image. The user can visually recognize the image and at the same time visually recognize the scenery transmitted through the display 102-1 and the display 102-2.
  • the controller 10 is an information processing device that controls the display device 1.
  • the controller 10 is connected to the microphone 101 and the display 102 by wire or wirelessly.
  • the display device 1 is a glass-type display device as shown in FIG. 2, the controller 10 is arranged, for example, inside the right temple 21.
  • the controller 10 includes a storage device 11, a processor 12, an input / output interface 13, and a communication interface 14.
  • the storage device 11 is configured to store programs and data.
  • the storage device 11 is, for example, a combination of a ROM (ReadOnlyMemory), a RAM (RandomAccessMemory), and a storage (for example, a flash memory or a hard disk).
  • the program includes, for example, the following program. ⁇ OS (Operating System) program ⁇ Application program that executes information processing
  • the data includes, for example, the following data.
  • -Database referenced in information processing-Data obtained by executing information processing that is, the execution result of information processing
  • the processor 12 is configured to realize the function of the controller 10 by activating the program stored in the storage device 11.
  • the processor 12 is an example of a computer.
  • the processor 12 activates a program stored in the storage device 11 to display an image representing a text corresponding to the utterance sound collected by the microphone 101 (hereinafter referred to as “text image”) at a predetermined position on the display 102. Realize the function presented to.
  • the input / output interface 13 acquires at least one of the following. -Voice signal collected by the microphone 101-User's instruction input from the input device connected to the glass-type display device 1.
  • the input device may be, for example, a drive button, a keyboard, a pointing device, a touch panel, a remote controller, or a switch. , Or a combination thereof.
  • the input / output interface 13 is configured to output information to an output device connected to the display device 1.
  • the output device is, for example, a display 102.
  • the communication interface 14 is configured to control communication between the display device 1 and an external device (for example, a server or a mobile terminal) (not shown).
  • an external device for example, a server or a mobile terminal
  • FIG. 3 is an explanatory diagram of an outline of the present embodiment.
  • the wearer P1 who wears the display device 1 has a conversation with the speakers P2 to P4.
  • the microphone 101 collects the utterance sounds of the speakers P2 to P4.
  • the controller 10 estimates the arrival direction of the collected utterance sound.
  • the controller 10 determines the text corresponding to the utterance sound by analyzing the audio signal corresponding to the collected utterance sound.
  • the controller 10 generates text images T1 to T3 corresponding to the determined text.
  • the controller 10 determines the presentation mode of each of the text images T1 to T3 according to the arrival direction of the utterance sound.
  • the controller 10 presents the text images T1 to T3 on the displays 102-1 to 102-32 in the determined presentation mode.
  • FIG. 4 is a flowchart showing an example of the presentation process of the present embodiment.
  • FIG. 5 is a diagram for explaining the collection of utterance sounds emitted from the speaker.
  • FIG. 6 is a diagram for explaining the arrival direction of the utterance sound.
  • FIG. 7 is a schematic diagram showing a presentation example of the glass-type display device of FIG.
  • FIG. 8 is a diagram for explaining the field of view of the wearer.
  • Each microphone 101 collects the utterance sound emitted from the speaker.
  • the microphones 101-1 to 101-5 arranged in the right temple 21, the right twist 22, the bridge 23, the left twist 24, and the left temple 25 of the display device 1 are shown in FIG. Collects the utterance sounds that arrive through the path shown in.
  • the microphones 101-1 to 101-5 convert the collected utterance sound into an audio signal.
  • the controller 10 executes acquisition (S110) of the audio signal converted by the microphone 101.
  • the processor 12 acquires an audio signal including an utterance sound emitted from at least one of the speakers P2, P3, and P4 transmitted from the microphones 101-1 to 101-5.
  • the audio signals transmitted from the microphones 101-1 to 101-5 include spatial information based on the path through which the utterance sound has progressed.
  • step S110 the controller 10 executes estimation of the arrival direction (S111).
  • the storage device 11 stores the arrival direction estimation model.
  • the arrival direction estimation model describes the correlation between the spatial information contained in the voice signal and the arrival direction of the utterance sound.
  • any existing method may be used as the arrival direction estimation method used in the arrival direction estimation model.
  • MUSIC Multiple Signal Classification
  • ESPRIT Estimat of Signal Parameters via Rotational Invariance Techniques
  • the processor 12 is collected by the microphones 101-1 to 101-5 by inputting the audio signal received from the microphones 101-1 to 101-5 into the arrival direction estimation model stored in the storage device 11. Estimate the direction of arrival of the utterance sound. At this time, the processor 12 estimates, for example, the declination from the axis whose front is zero degree as the arrival direction of the utterance sound. In the example shown in FIG. 6, the processor 12 estimates the arrival direction of the utterance sound emitted from the speaker P2 as an angle A1 to the right from the axis. The processor 12 estimates the arrival direction of the utterance sound emitted from the speaker P3 as an angle A2 to the left from the axis. The processor 12 estimates the arrival direction of the utterance sound emitted from the speaker P4 as an angle A3 to the left from the axis.
  • step S111 the controller 10 executes audio signal extraction (S112).
  • the beamforming model is stored in the storage device 11.
  • the beamforming model describes the correlation between a given direction and the parameters for forming a directivity with a beam in this direction.
  • the parameter for forming the directivity is a parameter related to amplifying or attenuating a plurality of audio signals.
  • the processor 12 inputs the estimated arrival direction into the beamforming model stored in the storage device 11 to calculate the parameters for forming the directivity having the beam in the arrival direction.
  • the processor 12 inputs the calculated angle A1 into the beamforming model and calculates the parameters for forming the directivity having the beam in the direction of the angle A1 to the right from the axis.
  • the processor 12 inputs the calculated angle A2 into the beamforming model and calculates the parameters for forming the directivity having the beam in the direction of the angle A2 to the left from the axis.
  • the processor 12 inputs the calculated angle A3 into the beamforming model and calculates the parameters for forming the directivity having the beam in the direction of the angle A3 to the left from the axis.
  • the processor 12 amplifies or attenuates the audio signal transmitted from the microphones 101-1 to 101-5 with the parameters calculated for the angle A1.
  • the processor 12 synthesizes the amplified or attenuated audio signal to extract the audio signal for the utterance sound coming from the angle A1 from the received audio signal.
  • the processor 12 amplifies or attenuates the audio signal transmitted from the microphones 101-1 to 101-5 with the parameters calculated for the angle A2.
  • the processor 12 synthesizes the amplified or attenuated audio signal to extract the audio signal for the utterance sound coming from the angle A2 from the received audio signal.
  • the processor 12 amplifies or attenuates the audio signal transmitted from the microphones 101-1 to 101-5 with the parameters calculated for the angle A3.
  • the processor 12 synthesizes the amplified or attenuated audio signal to extract the audio signal for the utterance sound coming from the angle A3 from the received audio signal.
  • step S112 the controller 10 executes voice recognition (S113).
  • the voice recognition model is stored in the storage device 11.
  • the speech recognition model describes the correlation between the speech signal and the text for the speech signal.
  • the speech recognition model is, for example, a trained model learned by machine learning.
  • the processor 12 inputs the extracted voice signal into the voice recognition model stored in the storage device 11, and determines the text corresponding to the input voice signal.
  • the processor 12 determines the text corresponding to the input voice signal by inputting the voice signals extracted for the angles A1 to A3 into the voice recognition model.
  • step S113 the controller 10 executes image generation (S114).
  • the processor 12 generates a text image based on the determined text.
  • step S114 the controller 10 executes the determination of the presentation mode (S115).
  • the processor 12 determines how the text image is presented on the display 102.
  • the processor 12 determines the position corresponding to the arrival direction of the audio signal related to the text image as the presentation position of the text image.
  • the processor 12 determines the type of the text image to be presented (an example of the "presentation mode") according to the arrival direction.
  • the processor 12 sets the presentation position of the text image T1 generated based on the voice signal extracted in the direction of the angle A1 from the axis to the right in the direction corresponding to the angle A1 and the predetermined elevation direction. Determine the position of.
  • the processor 12 positions the position of the display 102-1 on the right side of the glass-type display device in the direction corresponding to the angle A1 and in the predetermined elevation angle direction as the text image T1.
  • the presentation position of. Further, the processor 12 determines to present the text image T1 so that the text image T1 is formed at a predetermined distance from the wearer P1.
  • the processor 12 determines the presentation position of the text image T2 generated based on the voice signal extracted in the direction of the angle A2 from the axis to the left as the position corresponding to the angle A2 and the position in the predetermined elevation angle direction. ..
  • the processor 12 positions the position of the display 102-2 on the left side of the glass-type display device in the direction corresponding to the angle A2 and in the predetermined elevation angle direction as the text image T2.
  • the presentation position of. determines to present the text image T2 so that the text image T2 is formed at a predetermined distance from the wearer P1.
  • the processor 12 determines the presentation position of the text image T3 generated based on the voice signal extracted in the direction of the angle A3 from the axis to the left as the position corresponding to the angle A3 and the position in the predetermined elevation angle direction. ..
  • the processor 12 positions the position of the display 102-2 on the left side of the glass-type display device in the direction corresponding to the angle A3 and in the predetermined elevation angle direction as the text image T3.
  • the presentation position of. determines to present the text image T3 so that the text image T3 is formed at a predetermined distance from the wearer P1.
  • the processor 12 determines a predetermined position as the presentation position of the text images T1 to T3.
  • the processor 12 determines to present the text images T1 to T3 in a format including at least one of a character string and a symbol corresponding to the direction of arrival of the voice signal relating to the text image (an example of the "presentation mode").
  • step S115 the controller 10 executes image presentation (S116).
  • the processor 12 presents the text image on the display 102 in the determined presentation mode.
  • the processor 12 presents the text image T1 at a position of the display 102-1 in the direction corresponding to the angle A1 and in the predetermined elevation angle direction.
  • the processor 12 presents the text image T2 at a position on the display 102-2 in the direction corresponding to the angle A2 and in the predetermined elevation angle direction.
  • the processor 12 presents the text image T3 at a position on the display 102-2 in the direction corresponding to the angle A3 and in the predetermined elevation angle direction.
  • the humanoid figure shown by the broken line on the displays 102-1 to 102-2 in FIG. 7 is a supplementary representation of the speaker who can be seen through the displays 102-1 to 102-2 by the wearer P1. , Not presented on displays 102-1 to 102-2.
  • the processor 12 contains the text image T1 at a predetermined position on the display 102-1 and at least one of a character string and a symbol corresponding to the direction corresponding to the angle A1.
  • the processor 12 presents the text image T2 in a predetermined position on the display 102-2 in a format that includes at least one of a string and a symbol corresponding to the direction corresponding to the angle A2.
  • the processor 12 presents the text image T3 in a predetermined position on the display 102-2 in a format that includes at least one of a string and a symbol corresponding to the direction corresponding to the angle A3.
  • a text image based on the utterance sound from the speaker on the left may contain, for example, the letters “left” or a symbol reminiscent of "left", to the utterance sound from the speaker on the right.
  • Based text images include, for example, the letters "right” or symbols pronounced of "right”.
  • the speaker P2 speaks to the wearer P1 of the glass-type display device 1 as shown in FIG.
  • the text image T1 which is the conversation content is presented together with the speaker P2 which is visually recognized through the display 102-1.
  • the text image T2, which is the conversation content spoken by the speaker P3, is presented to the wearer P1 together with the speaker P3 which is visually recognized through the display 102-2.
  • the text image T3, which is the conversation content spoken by the speaker P4 is presented to the wearer P1 together with the speaker P4 which is visually recognized through the display 102-2.
  • a text image corresponding to the utterance sound is presented in a presentation mode according to the arrival direction of the utterance sound.
  • the wearer of the display device 1 can easily recognize the direction of arrival of the utterance sound.
  • the presentation mode is such that the image is presented at a position corresponding to the arrival direction of the utterance sound. This makes it easier to recognize the direction of arrival of the utterance sound.
  • the audio signal corresponding to the estimated arrival direction is extracted from the acquired audio signal. This makes it possible to accurately recognize the direction of arrival of the utterance sound.
  • the display device is applied to at least one form of a glass type display device, a mobile terminal, and a conference system. This makes it possible to easily recognize the direction of arrival of the utterance sound in various uses.
  • Modification 1 shows an example in which the display device 1 is connected to a microphone module including a plurality of microphones 101.
  • FIG. 9 is a schematic view showing the configuration of the display device of the first modification.
  • the communication interface 14 is connected to the microphone module 101a.
  • the microphone 101 is not arranged on the frame of the glass-type display device 1.
  • the microphone module 101a includes a plurality of microphones 101.
  • the microphones 101 are arranged at a predetermined distance from each other.
  • the microphone module 101a is attached to any part of the body shown below. -Head-collar-chest-waist-Other parts that pass through the center of the wearer When the microphone module 101a is worn by the wearer, it communicates with the controller 10 via the communication interface 14.
  • the controller 10 executes steps S110 to S116 and presents the text images T1 to T3 on the displays 102-1 to 102-2 in the same manner as in FIG.
  • the first modification even in the glass-type display device 1 in which the microphone 101 is not arranged, it is possible to present a text image corresponding to the sound collected by the microphone 101 in a mode corresponding to the arrival direction. Become.
  • Modification 2 shows an example in which the display device 1 includes a mobile terminal.
  • FIG. 10 is a schematic diagram showing the display device of the modification 2 and the presentation example of the display device.
  • the mobile terminal of FIG. 10 is an example of the display device 1.
  • the mobile terminal includes, for example, any of the following. ⁇ Smartphones ⁇ Tablet terminals ⁇ Mobile devices with displays ⁇ Personal computers (for example, laptop computers)
  • controller 10 executes steps S110 to S116 in the same manner as in FIG.
  • the text images T1 to T3 are presented at positions on the display 102 in the direction corresponding to the arrival direction of the utterance sound.
  • the microphone module 101a if the microphone module 101a is connected to the mobile terminal, it is possible to present a text image corresponding to the utterance sound collected by the microphone 101 in a presentation mode according to the arrival direction.
  • Modification 3 shows an example in which the display device 1 includes a camera.
  • FIG. 11 is a schematic view showing the configuration of the display device of the modification 3.
  • the display device 1a includes a microphone 101, a display 102, a camera 103, and a controller 10a.
  • the camera 103 is arranged so that the speaker is included in the shooting area.
  • the camera 103 shoots in a predetermined direction and generates a shooting signal.
  • the controller 10a is an information processing device that controls the display device 1a.
  • the controller 10a is connected to the microphone 101, the display 102, and the camera 103 by wire or wirelessly.
  • the controller 10a includes a storage device 11, a processor 12a, an input / output interface 13a, and a communication interface 14.
  • the processor 12a is configured to realize the function of the controller 10a by activating the program stored in the storage device 11.
  • the processor 12a is an example of a computer.
  • the processor 12a responds to a shooting signal generated by the camera 103 at a predetermined position on the display 102 by activating a program stored in the storage device 11 to display a text image of the utterance sound collected by the microphone 101 at a predetermined position. It realizes a function of superimposing and presenting an image to be displayed (hereinafter referred to as "captured image").
  • the input / output interface 13a acquires at least one of the following. -Voice signal collected by the microphone 101-Shooting signal taken by the camera 103-User's instruction input from the input device connected to the display device 1
  • the input device is, for example, a drive button, a keyboard, or a pointing device. , Touch panel, remote controller, switch, or a combination thereof.
  • the input / output interface 13a is configured to output information to an output device connected to the display device 1.
  • the output device is, for example, a display 102.
  • the controller 10a executes steps S110 to S113 in the same manner as in FIG.
  • step S113 the controller 10a executes image generation (S114).
  • the controller 10a converts the shooting signal generated by the camera 103 into a shooting image.
  • the controller 10a generates a text image as in FIG.
  • step S114 the controller 10a executes the determination of the presentation mode (S115).
  • the processor 12a determines how the text image and the captured image are presented on the display 102. For example, the processor 12a determines the position corresponding to the arrival direction of the audio signal related to the text image as the presentation position of the text image, and the type of the text image to be presented according to the arrival direction, as in FIG. To decide. The processor 12a determines the presentation position of the captured image and the type of the captured image to be presented according to the arrival direction.
  • step S115 the controller 10a executes the image presentation (S116).
  • the processor 12a superimposes the text image generated in step S114 on the captured image and presents it on the display 102 in the determined presentation mode.
  • the first example of the display device of Modification 3 shows an example in which the display device 1a includes a glass type display device.
  • FIG. 12 is a schematic diagram showing a first example of the display device of the modified example 3 and a presentation example of the display device.
  • FIG. 13 is a schematic diagram showing a shooting range by the camera shown in FIG.
  • the camera 103 is arranged on the bridge 23 so as to capture an area including the wearer's field of view.
  • the camera 103 is set so that the shooting range includes the field of view of the wearer.
  • the solid line represents the shooting range by the camera 103
  • the broken line represents the field of view of the wearer.
  • the camera 103 is capable of capturing a view that is in the field of view of the wearer.
  • the controller 10a executes steps S110 to S114 shown in FIG. 4, as described in the modified example 3.
  • step S114 the controller 10a executes the determination of the presentation mode (S115).
  • the processor 12a determines the presentation position of the text image T1 generated based on the voice signal extracted in the predetermined arrival direction as the position corresponding to the arrival direction and the position in the predetermined elevation angle direction. .. That is, the processor 12a sets the position of the display 102-1 in the direction corresponding to the arrival direction and the predetermined elevation angle direction as the presentation position of the text image T1. Further, the processor 12a determines to present the text image T1 so that the text image T1 is formed at a predetermined distance from the wearer. The processor 12a determines the presentation position of the text images T2 and T3 generated based on the voice signal extracted for the predetermined arrival direction as the position corresponding to the arrival direction and the position in the predetermined elevation angle direction.
  • the processor 12a sets the position of the display 102-2 in the direction corresponding to the arrival direction and the predetermined elevation angle direction as the presentation position of the text images T2 and T3. Further, the processor 12a determines to present the text images T2 and T3 so that the text images T2 and T3 are imaged at a predetermined distance from the wearer. The processor 12a determines the presentation position of the captured image based on the imaging direction of the camera 103. Further, the processor 12a determines to present the photographed image so that the photographed image is formed at a predetermined distance from the wearer.
  • step S115 the controller 10a executes image presentation (S116). Specifically, the processor 12a superimposes the text image generated in step S114 on the captured image and presents it on the display 102 in the determined presentation mode.
  • the processor 12a presents the captured image on the display 102-1 and the display 102-2.
  • the image I1 of the speaker P2 taken as shown in FIG. 12 is presented on the display 102-1
  • the images I2 and I3 of the speakers P3 and P4 are presented on the display 102-2.
  • the processor 12a superimposes and presents the text image T1 on the captured image at a position on the display 102-1 in the direction corresponding to the arrival direction of the utterance sound and in the predetermined elevation angle direction.
  • the processor 12a superimposes the text images T2 to T3 on the captured image and presents the text images T2 to T3 at positions on the display 102-2 in the direction corresponding to the arrival direction of the utterance sound and in the predetermined elevation angle direction.
  • the wearer of the display device 1a is informed of the text that is the conversation content spoken by the speaker P2.
  • the image T1 will be presented together with the image I1 representing the speaker P2.
  • the wearer P1 is presented with the text image T2, which is the conversation content spoken by the speaker P3, together with the image I2 representing the speaker P3.
  • the wearer P1 is presented with the text image T3, which is the conversation content spoken by the speaker P4, together with the image I3 representing the speaker P4.
  • FIG. 14 is a schematic diagram showing a second example of the display device of the modified example 3 and a presentation example of the display device.
  • the microphone 101 is not arranged in the frame of the glass type display device 1a.
  • the controller 10a executes steps S110 to S116 shown in FIG. 4, as described in the first example of the display device of the modification example 3.
  • the image I1 is presented on the display 102-1, and the images I2 and I3 are presented on the display 102-2. Further, the text image T1 is superimposed and presented at a position corresponding to the arrival direction of the display 102-1. Further, the text images T2 and T3 are superimposed and presented at positions corresponding to the arrival direction of the display 102-2.
  • FIG. 15 is a schematic diagram showing a third example of the display device of the modified example 3 and a presentation example of the display device.
  • a camera arranged on the back surface of the arrangement surface of the display 102 is used so as to capture an area including the field of view of the user P1.
  • the controller 10a executes steps S110 to S114 shown in FIG. 4, as described in the first example of the display device of the modification 3.
  • step S114 the controller 10a executes the determination of the presentation mode (step S115).
  • the processor 12a determines the presentation position of the text images T1 to T3 generated based on the audio signal extracted in the predetermined arrival direction as the position in the direction corresponding to the arrival direction. According to the example adopted for the mobile terminal, the processor 12a sets the position of the display 102 of the mobile terminal in the direction corresponding to the arrival direction as the presentation position of the text images T1 to T3. Further, the processor 12a determines to present the text images T1 to T3. The processor 12a determines the presentation position of the captured image based on the imaging direction of the camera 103. Further, the processor 12a determines to present the captured image.
  • step S115 the controller 10a executes the image presentation (S116).
  • the processor 12a superimposes the text image generated in step S114 on the captured image and presents it on the display 102 in the determined presentation mode.
  • the processor 12a presents the captured image on the display 102.
  • the speaker images I1 to I3 taken as shown in FIG. 15 are presented on the display 102.
  • the processor 12a presents the text images T1 to T3 at positions on the display 102 of the mobile terminal in the direction corresponding to the arrival direction of the utterance sound.
  • the text image T1 which is the conversation content spoken by the speaker P2 is spoken to the user P1 of the display device 1a. It will be presented together with the image I1 representing the person P2.
  • the text image T2, which is the conversation content spoken by the speaker P3, is presented to the user P1 together with the image I2 representing the speaker P3.
  • the text image T3, which is the conversation content spoken by the speaker P4, is presented to the user P1 together with the image I3 representing the speaker P4.
  • FIG. 16 is a schematic diagram showing a fourth example of the display device of the modified example 3 and a presentation example of the display device.
  • the conference system is a system that presents the utterance sound collected during the conference to the display as a text image at a position corresponding to the arrival direction.
  • the display 102 is arranged at a position where the conference participants can see it.
  • the camera 103 is arranged at a position where the conference participants can be photographed. In the example shown in FIG. 16, the camera 103 is located above the display 102. The camera 103 photographs the conference participants P2 to P4 who are having a conference.
  • the microphone module 101a is placed in any of the positions shown below: -Conference tabletop-Hollow position suspended from the ceiling When the microphone module 101a is placed in a predetermined position, it regulates with the controller 10a. To carry out.
  • the controller 10a executes steps S110 to S116 shown in FIG. 4, as described in the third example of the display device of the modification 3.
  • the processor 12a presents the captured image on the display 102.
  • the images I1 to I3 obtained by capturing the conference participants P2 to P4 are presented on the display 102.
  • the processor 12a presents the text images T1 to T3 at positions on the display 102 in the direction corresponding to the arrival direction of the utterance sound.
  • the text image T1 which is the conversation content spoken by the conference participant P2 is presented together with the image I1 representing the conference participant P2. Will be done.
  • the text image T2, which is the conversation content spoken by the conference participant P3, is presented together with the image I2 representing the conference participant P3.
  • the text image T3, which is the conversation content spoken by the conference participant P4, will be presented together with the image I3 representing the conference participant P4.
  • the captured image is presented, and the text image corresponding to the utterance sound collected by the microphone 101 is presented in the presentation mode according to the arrival direction according to the speaker image included in the captured image. Is possible. This makes it possible to improve the visibility of the relationship between the sound source (for example, the speaker) and the text image.
  • Modification 4 shows an example in which the function of the controller is realized by the server device.
  • FIG. 17 is a schematic view showing the configuration of the display device of the modified example 4.
  • the display device 1b includes a plurality of microphones 101, a display 102, and a server device 10b.
  • the server device 10b is an information processing device that controls the display device 1b.
  • the server device 10b is connected to the network by wire or wirelessly.
  • the server device 10b includes a storage device 11, a processor 12b, an input / output interface 13, and a communication interface 14b.
  • the processor 12b is configured to realize the function of the server device 10b by activating the program stored in the storage device 11.
  • the processor 12b is an example of a computer.
  • the processor 12b realizes a function of activating a program stored in the storage device 11 to present a text image based on the utterance sound collected by the microphone 101 to a predetermined position on the display 102.
  • the communication interface 14b is configured to control communication via a network between the display device 1b, the microphone 101, and the display 102.
  • the server device 10b executes steps S110 to S116 in the same manner as in FIG.
  • the text image corresponding to the utterance sound collected by the microphone 101 can be presented in a presentation mode according to the arrival direction. It will be possible.
  • Modification 5 shows an example in which the display device of modification 4 includes a camera.
  • FIG. 18 is a schematic view showing the configuration of the display device of the modified example 5.
  • FIG. 19 is a schematic diagram of a conference system, which is an example of the display device shown in FIG.
  • the display device 1c includes a plurality of microphones 101, a display 102, a camera 103, and a server device 10c.
  • the server device 10c is a device that controls the display device 1c.
  • the server device 10c is connected to the network by wire or wirelessly.
  • the server device 10c includes a storage device 11, a processor 12c, an input / output interface 13, and a communication interface 14c.
  • the processor 12c is configured to realize the function of the server device 10c by activating the program stored in the storage device 11.
  • the processor 12c is an example of a computer.
  • the processor 12c realizes a function of activating a program stored in the storage device 11 to present a text image based on the utterance sound collected by the microphone 101 to a predetermined position on the display 102.
  • the communication interface 14c is configured to control communication via a network between the display device 1c and the microphone 101, the display 102, and the camera 103.
  • a conference held remotely is photographed and the utterance sound of the conference is collected.
  • the conference system presents the captured image on the display and presents the text image based on the utterance sound at the position of the display according to the arrival direction of the utterance sound.
  • a conference held remotely is referred to as a remote conference.
  • the display 102 is arranged at a position visible to at least one of the following persons. ⁇ Person who participates in the conference call ⁇ Person who monitors the conference call
  • the camera 103 is arranged at a position where a remote conference can be photographed. According to the example shown in FIG. 19, the camera 103 captures the conference participants P2 to P4 participating in the remote conference. The camera 103 shoots and generates a shooting signal. The camera 103 transmits a shooting signal to the server device 10c via the network.
  • the microphone module 101a is placed in one of the positions shown below that can collect the spoken sound of the remote conference.-Conference tabletop-Hollow position suspended from the ceiling The microphone module 101a is placed in a predetermined position. Then, regulation is performed with the server device 10c.
  • the server device 10c executes steps S110 to S116 in the same manner as in FIG.
  • the processor 12c presents the captured image on the display 102.
  • the images I1 to I3 obtained by capturing the conference participants P2 to P4 are presented on the display 102.
  • the processor 12c presents the text images T1 to T3 at positions on the display 102 in the direction corresponding to the arrival direction of the utterance sound.
  • the text image T1 which is the conversation content spoken by the conference participant P2 is presented together with the image I1 representing the conference participant P2. Will be done.
  • the text image T2, which is the conversation content spoken by the conference participant P3, is presented together with the image I2 representing the conference participant P3.
  • the text image T3, which is the conversation content spoken by the conference participant P4, will be presented together with the image I3 representing the conference participant P4.
  • the captured image is presented, and the text image corresponding to the utterance sound collected by the microphone 101 is presented in the presentation mode according to the arrival direction according to the speaker image included in the captured image. Is possible.
  • the display device 1 may be realized by any method as long as the image can be presented to the user.
  • the display device 1 can be realized by, for example, the following implementation method.
  • -HOE Holographic optical element
  • DOE diffractive optical element
  • an optical element for example, a light guide plate
  • Liquid crystal display ⁇ Retinal projection display
  • LED Light Emitting Diode
  • Organic EL Electro Luminescence
  • Laser display
  • Optical elements for example, lens, mirror, diffraction grid, liquid crystal, MEMS mirror, HOE
  • a display that guides the light emitted from the light emitter In particular, a retinal projection display makes it easy for even a person with low vision to observe an image. Therefore, it is possible to make a person suffering from both deafness and amblyopia more easily aware of the direction of arrival of the utterance sound.
  • the display device 1a includes the camera 103 has been described as an example, but the present embodiment can also be applied to the case where the display device 1 includes a sensor configured to sense.
  • the sensor is, for example, at least one of the following. ⁇ Human sensor ⁇ TOF (Time Of Flight) sensor ⁇ Millimeter wave radar ⁇ LiDAR (Light Detection And Ranging) -Image sensor
  • the input / output interface 13 acquires a sensing signal generated by the sensor.
  • the processor 12 determines the presentation mode of the text image in step S115 based on the acquired sensing signal. This makes it possible to improve the accuracy with which the text image is presented.
  • the sensing signal is, for example, a shooting signal obtained by shooting a region collected by a plurality of microphones by a camera equipped with an image sensor.
  • the processors 12a and 12c are the text images. It is also applicable when the presentation position of is determined in association with an image of a speaker located within a predetermined range from the arrival direction of the utterance sound. Specifically, for example, the processors 12a and 12c determine the presentation position of the captured image based on the imaging direction of the camera 103. The processors 12a and 12c associate the arrival direction of the utterance sound with the position of the speaker included in the captured image. The processors 12a and 12c determine the presentation position of the text images T1 to T3 generated based on the audio signal extracted in the predetermined arrival direction as the position in the vicinity of the speaker associated with the arrival direction.
  • an example of extracting an amplified or attenuated audio signal by beamforming has been described as a method of extracting an audio signal, but the scope of the present embodiment is not limited to this.
  • the extraction of the audio signal of the present embodiment can also be realized by the following method. ⁇ Frost beamformer ⁇ Adaptive filter beamforming (for example, generalized sidelobe canceller)
  • the present embodiment is also applied to the case where the presentation mode includes, for example, the following modes. It is possible. -Font-Character color-Pictogram
  • the processor 12 instead of presenting the text image at a position corresponding to the arrival direction of the spoken sound, the text image. May be presented on the display 102 in a color or font or the like according to the direction of arrival.
  • a text is created based on a voice signal by voice recognition has been described.
  • the processor 12 has a speaker attribute (hereinafter referred to as "speaker attribute") by, for example, voice analysis of the utterance sound collected by the microphone 101 or image analysis of an image taken by the camera 103. ) May be estimated. Speaker attributes include, for example: -Mood-Gender-Age Based on the estimated speaker attributes, the processor 12 determines the presentation mode of the text image, for example, the font, the color of the character, and the pictogram. As a result, the wearer of the display device 1 can easily recognize the speaker attribute.
  • the captured image captured by the camera 103 is transmitted to the server device 10c via the network. It is also applicable when it is not done. In this case, the captured image captured by the camera 103 is presented on the display 102.
  • the processor 12 applies the voice analysis process to the input voice signal, the voice signal being processed, or the voice signal after the processing, so that the voice of the utterance sound among the voices acquired is obtained.
  • the processing for the environmental sound is omitted from the voice including the sound other than the utterance sound (for example, the environmental sound), so that the processing load of the information processing apparatus can be suppressed.
  • steps S111 to S115 in FIG. 5 are executed by the processor of the server.
  • a means for acquiring sound collected by a plurality of microphones 101 (for example, a processor 12 for executing step S110) is provided.
  • a means for estimating the arrival direction of the acquired voice (for example, a processor 12 for executing step S111) is provided.
  • a means for generating a text image corresponding to the acquired voice (for example, a processor 12 for executing step S114) is provided.
  • a means for determining the presentation mode of the text image (for example, the processor 12 for executing step S115) with reference to the estimated arrival direction is provided.
  • An information processing device (eg, controller 10) comprising means for presenting a text image (eg, a processor 12 performing step S116) in a determined presentation mode.
  • Appendix 2 The information processing apparatus according to (Appendix 1), wherein the means for determining the presentation mode determines the presentation mode in which the text image is presented at a position corresponding to the estimated arrival direction.
  • a means for extracting the voice corresponding to the estimated arrival direction from the acquired voice (for example, the processor 12 for executing step S112) is provided.
  • the information processing device according to (Appendix 1) or (Appendix 2), wherein the means for generating a text image is to generate a text image corresponding to the extracted voice.
  • (Appendix 4) It is equipped with a means for estimating speaker attributes by analyzing the acquired voice.
  • the information processing apparatus according to any one of (Appendix 1) to (Appendix 3), wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the estimated speaker attribute.
  • the speaker attribute can be easily recognized.
  • a means for example, an input / output interface 13 for acquiring a sensing signal relating to the sensing of a region collected by a plurality of microphones by using a sensor is provided.
  • the information processing apparatus according to any one of (Appendix 1) to (Appendix 4), wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the acquired sensing signal.
  • the accuracy of presenting the text image can be improved.
  • the accuracy of presenting the text image can be improved.
  • a means for acquiring a shooting signal in which a region is shot (for example, an input / output interface 13a) is provided.
  • a means for converting the acquired shooting signal into a shooting image (for example, a processor 12 for executing step S114) is provided.
  • the information processing device according to any one of (Appendix 1) to (Appendix 5), wherein the means for presenting the text image is superposed on the captured image and presented.
  • (Appendix 8) It is equipped with a means to estimate the speaker attribute by analyzing the shooting signal.
  • the information processing apparatus according to (Appendix 6) or (Appendix 7), wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the estimated speaker attribute.
  • the speaker attribute can be easily recognized.
  • (Appendix 9) It is equipped with a means for extracting the voice of the utterance sound emitted from a person from the acquired voice.
  • the means of estimating the arrival direction is to estimate the arrival direction of the extracted voice and
  • the means for generating a text image is to generate a text image corresponding to the extracted voice.
  • the information processing apparatus according to any one of (Appendix 1) to (Appendix 8).
  • a means for acquiring sound collected by a plurality of microphones 101 (for example, a processor 12 for executing step S110) is provided.
  • a means for estimating the arrival direction of the acquired voice (for example, a processor 12 for executing step S111) is provided.
  • a means for generating a text image corresponding to the acquired voice (for example, a processor 12 for executing step S114) is provided.
  • a means for determining the presentation mode of the text image (for example, the processor 12 for executing step S111) with reference to the estimated arrival direction is provided.
  • a means for presenting a text image (eg, a processor 12 performing step S116) in a determined presentation mode.
  • (Appendix 13) A program for causing a computer (for example, a processor 12) to realize the means according to any one of (Appendix 1) to (Appendix 12).
  • a step (for example, step S110) for acquiring the sound collected by a plurality of microphones is provided.
  • a step (for example, step S111) for estimating the arrival direction of the acquired voice is provided.
  • a step (for example, step S114) for generating a text image corresponding to the acquired voice is provided.
  • a step (for example, step S115) for determining the presentation mode of the text image with reference to the estimated arrival direction is provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

An information processing device according to the present invention is equipped with a means for acquiring audio collected by a plurality of microphones. The information processing device is equipped with a means for estimating an arrival direction of the acquired audio. The information processing device is equipped with a means for generating a text image corresponding to the acquired audio. The information processing device is equipped with a means for referencing the estimated arrival direction and determining a presentation mode for the text image. The information processing device is equipped with a means for presenting the text image in the determined presentation mode.

Description

情報処理装置、ディスプレイデバイス、提示方法、及びプログラムInformation processing equipment, display devices, presentation methods, and programs
 本開示は、情報処理装置、ディスプレイデバイス、提示方法、及びプログラムに関する。 This disclosure relates to information processing devices, display devices, presentation methods, and programs.
 補聴器は、聞こえを補助する装置として、広く役立てられている。 Hearing aids are widely used as a device to assist hearing.
特開2013-236396号公報Japanese Unexamined Patent Publication No. 2013-236396
 補聴器の装着者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような装着者が、複数人での会話を行おうとする場合、音声の到来方向が把握できず、会話を成り立たせることが難しい。 Hearing aid wearers may have diminished ability to grasp the direction of arrival of sound due to diminished auditory function. When such a wearer tries to have a conversation with a plurality of people, the direction of arrival of the voice cannot be grasped, and it is difficult to establish the conversation.
 例えば、特許文献1のように、音声の到来方向を再現し、話者の発話する音声(以下「発話音」という)の明瞭性を高める補聴器は提案されている。しかしながら、音声による到来方向の再現だけでは、補聴器の装着者が到来方向を認知するには不十分である。特に、複数の話者が同時に発話する場合には、音声による到来方向の再現だけでは、各話者の発話音の到来方向を当該装着者が認知することは困難である。 For example, as in Patent Document 1, a hearing aid that reproduces the direction of arrival of voice and enhances the clarity of the voice spoken by the speaker (hereinafter referred to as “spoken sound”) has been proposed. However, the reproduction of the direction of arrival by voice alone is not sufficient for the wearer of the hearing aid to recognize the direction of arrival. In particular, when a plurality of speakers speak at the same time, it is difficult for the wearer to recognize the arrival direction of the utterance sound of each speaker only by reproducing the arrival direction by voice.
 本開示の目的は、音声の到来方向を容易に認知させることである。 The purpose of this disclosure is to easily recognize the direction of arrival of voice.
 本開示の一態様によれば、情報処理装置が提供される。情報処理装置は、複数のマイクロホンで集音された音声を取得する手段を具備する。情報処理装置は、取得された音声の到来方向を推定する手段を具備する。情報処理装置は、取得された音声に対応するテキスト画像を生成する手段を具備する。情報処理装置は、推定された到来方向を参照して、テキスト画像の提示態様を決定する手段を具備する。情報処理装置は、決定された提示態様で、テキスト画像を提示する手段を具備する。 According to one aspect of the present disclosure, an information processing device is provided. The information processing device includes means for acquiring sound collected by a plurality of microphones. The information processing device includes means for estimating the arrival direction of the acquired voice. The information processing device comprises means for generating a text image corresponding to the acquired voice. The information processing apparatus includes means for determining the presentation mode of the text image with reference to the estimated arrival direction. The information processing apparatus comprises means for presenting a text image in a determined presentation mode.
本実施形態のディスプレイデバイスの構成を示す概略図である。It is a schematic diagram which shows the structure of the display device of this embodiment. 図1に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの模式図である。It is a schematic diagram of the glass type display device which is an example of the display device shown in FIG. 本実施形態の概要の説明図である。It is explanatory drawing of the outline of this embodiment. 本実施形態の提示処理の一例を表すフローチャートである。It is a flowchart which shows an example of the presentation process of this embodiment. 話者から発せられる発話音の集音を説明するための図である。It is a figure for demonstrating the collection of the utterance sound emitted from a speaker. 発話音の到来方向を説明するための図である。It is a figure for demonstrating the arrival direction of an utterance sound. グラス型ディスプレイデバイスの提示例を表す模式図である。It is a schematic diagram which shows the presentation example of the glass type display device. 装着者の視界を説明するための図である。It is a figure for demonstrating the field of view of a wearer. 変形例1のディスプレイデバイスの構成を示す概略図である。It is a schematic diagram which shows the structure of the display device of the modification 1. FIG. 変形例2のディスプレイデバイスと、当該ディスプレイデバイスの提示例とを表す模式図である。It is a schematic diagram which shows the display device of the modification 2 and the presentation example of the display device. 変形例3のディスプレイデバイスの構成を示す概略図である。It is a schematic diagram which shows the structure of the display device of the modification 3. 変形例3のディスプレイデバイスの第1例と、当該ディスプレイデバイスの提示例とを表す模式図である。It is a schematic diagram which shows the 1st example of the display device of the modification 3 and the presentation example of the display device. 図11に示されるカメラによる撮影範囲を表す模式図である。It is a schematic diagram which shows the photographing range by the camera shown in FIG. 変形例3のディスプレイデバイスの第2例と、当該ディスプレイデバイスの提示例とを表す模式図である。It is a schematic diagram which shows the 2nd example of the display device of the modification 3 and the presentation example of the display device. 変形例3のディスプレイデバイスの第3例と、当該ディスプレイデバイスの提示例とを表す模式図である。It is a schematic diagram which shows the 3rd example of the display device of the modification 3 and the presentation example of the display device. 変形例3のディスプレイデバイスの第4例と、当該ディスプレイデバイスの提示例とを表す模式図である。It is a schematic diagram which shows the 4th example of the display device of the modification 3 and the presentation example of the display device. 変形例4のディスプレイデバイスの構成を示す概略図である。It is a schematic diagram which shows the structure of the display device of the modification 4. 変形例5のディスプレイデバイスの構成を示す概略図である。It is a schematic diagram which shows the structure of the display device of the modification 5. 図18に示されるディスプレイデバイスの一例である会議システムの模式図である。It is a schematic diagram of the conference system which is an example of the display device shown in FIG.
 以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings. In the drawings for explaining the embodiments, the same components are designated by the same reference numerals in principle, and the repeated description thereof will be omitted.
(1)情報処理装置の構成
 本実施形態のディスプレイデバイス1の構成を説明する。図1は、本実施形態のディスプレイデバイスの構成を示す概略図である。図2は、図1に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの模式図である。
(1) Configuration of Information Processing Device The configuration of the display device 1 of the present embodiment will be described. FIG. 1 is a schematic view showing the configuration of the display device of the present embodiment. FIG. 2 is a schematic diagram of a glass-type display device which is an example of the display device shown in FIG.
 図1に示されるディスプレイデバイス1は、音声を集音し、且つ、集音した音声に対応するテキスト画像を音声の到来方向に応じた提示態様による表示(「提示」の一例)を実行するように構成される。
 ディスプレイデバイス1の形態は、例えば、以下の少なくとも1つを含む。
 ・グラス型ディスプレイデバイス
 ・携帯端末
 ・会議システム
The display device 1 shown in FIG. 1 collects sound and displays a text image corresponding to the collected sound in a presentation mode according to the direction of arrival of the sound (an example of "presentation"). It is composed of.
The form of the display device 1 includes, for example, at least one of the following.
・ Glass-type display device ・ Mobile terminal ・ Conference system
 図1に示されるように、ディスプレイデバイス1は、複数のマイクロホン101と、ディスプレイ102と、コントローラー10とを備える。
 各マイクロホン101は、互いに所定の距離を隔てて配置される。
As shown in FIG. 1, the display device 1 includes a plurality of microphones 101, a display 102, and a controller 10.
The microphones 101 are arranged at a predetermined distance from each other.
 図2に示されるように、ディスプレイデバイス1がグラス型ディスプレイデバイスである場合、ディスプレイデバイス1は、右テンプル21と、右ヨロイ22と、ブリッジ23と、左ヨロイ24と、左テンプル25と、リム26と、を備える。 As shown in FIG. 2, when the display device 1 is a glass type display device, the display device 1 has a right temple 21, a right twist 22, a bridge 23, a left twist 24, a left temple 25, and a rim. 26 and.
 マイクロホン101-1は、右テンプル21に配置される。
 マイクロホン101-2は、右ヨロイ22に配置される。
 マイクロホン101-3は、ブリッジ23に配置される。
 マイクロホン101-4は、左ヨロイ24に配置される。マイクロホン101-5は、左テンプル25に配置される。
 マイクロホン101は、例えば、以下の少なくとも1つの音声を集音する。
 ・人物による発話音
 ・ディスプレイデバイス1が使用される環境の音(以下「環境音」という)
The microphone 101-1 is arranged on the right temple 21.
The microphone 101-2 is arranged on the right twist 22.
The microphone 101-3 is arranged on the bridge 23.
The microphone 101-4 is arranged on the left twist 24. The microphone 101-5 is arranged on the left temple 25.
The microphone 101 collects, for example, at least one of the following sounds.
-Sound of speech by a person-Sound of the environment in which the display device 1 is used (hereinafter referred to as "environmental sound")
 ディスプレイデバイス1がグラス型ディスプレイデバイスである場合、ディスプレイ102は、透過性を有する部材(例えば、ガラス、プラスチック、及び、ハーフミラーの少なくとも1つ)である。この場合、ディスプレイ102は、グラス型ディスプレイデバイスを装着した使用者が視認可能な位置に配置されている。 When the display device 1 is a glass-type display device, the display 102 is a transparent member (for example, at least one of glass, plastic, and a half mirror). In this case, the display 102 is arranged at a position visible to the user wearing the glass-type display device.
 ディスプレイ102-1~102-2は、リム26により支持される。ディスプレイ102-1は、使用者がディスプレイデバイス1を装着した際に使用者の右眼前に位置するように配置されている。ディスプレイ102-2は、使用者がディスプレイデバイス1を装着した際に使用者の左眼前に位置するように配置されている。 The displays 102-1 to 102-2 are supported by the rim 26. The display 102-1 is arranged so as to be located in front of the user's right eye when the user wears the display device 1. The display 102-2 is arranged so as to be located in front of the user's left eye when the user wears the display device 1.
 ディスプレイ102は、コントローラー10からの制御に従い、画像を提示(例えば、表示)する。ディスプレイ102が画像を提示する手法は限定されず、既存のいかなる手法が用いられても構わない。 The display 102 presents (for example, displays) an image according to the control from the controller 10. The method by which the display 102 presents an image is not limited, and any existing method may be used.
 例えば、図2に示されるように、右テンプル21の裏側に配置される投影器(図示せず)から画像光に対応する画像が、ディスプレイ102-1へ投影される。左テンプル25の裏側に配置される投影器(図示せず)から画像光に対応する画像が、ディスプレイ102-2へ投影される。
 ディスプレイ102-1及びディスプレイ102―2は、画像を提示する。使用者は、画像を視認すると同時に、ディスプレイ102-1及びディスプレイ102―2を透過した景色も視認することが可能である。
For example, as shown in FIG. 2, an image corresponding to the image light is projected onto the display 102-1 from a projector (not shown) arranged behind the right temple 21. An image corresponding to the image light is projected onto the display 102-2 from a projector (not shown) arranged on the back side of the left temple 25.
The display 102-1 and the display 102-2 present an image. The user can visually recognize the image and at the same time visually recognize the scenery transmitted through the display 102-1 and the display 102-2.
 コントローラー10は、ディスプレイデバイス1を制御する情報処理装置である。コントローラー10は、有線又は無線でマイクロホン101、及びディスプレイ102と接続される。
 図2に示されるようにディスプレイデバイス1がグラス型ディスプレイデバイスである場合、コントローラー10は、例えば、右テンプル21の内側に配置される。
The controller 10 is an information processing device that controls the display device 1. The controller 10 is connected to the microphone 101 and the display 102 by wire or wirelessly.
When the display device 1 is a glass-type display device as shown in FIG. 2, the controller 10 is arranged, for example, inside the right temple 21.
 図1に示されるように、コントローラー10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14と、を備える。 As shown in FIG. 1, the controller 10 includes a storage device 11, a processor 12, an input / output interface 13, and a communication interface 14.
 記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。 The storage device 11 is configured to store programs and data. The storage device 11 is, for example, a combination of a ROM (ReadOnlyMemory), a RAM (RandomAccessMemory), and a storage (for example, a flash memory or a hard disk).
 プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
The program includes, for example, the following program.
・ OS (Operating System) program ・ Application program that executes information processing
 データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
The data includes, for example, the following data.
-Database referenced in information processing-Data obtained by executing information processing (that is, the execution result of information processing)
 プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、コントローラー10の機能を実現するように構成される。プロセッサ12は、コンピュータの一例である。例えば、プロセッサ12は、記憶装置11に記憶されたプログラムを起動することで、マイクロホン101で集音した発話音に対応するテキストを表す画像(以下「テキスト画像」という)をディスプレイ102の所定の位置へ提示する機能を実現する。 The processor 12 is configured to realize the function of the controller 10 by activating the program stored in the storage device 11. The processor 12 is an example of a computer. For example, the processor 12 activates a program stored in the storage device 11 to display an image representing a text corresponding to the utterance sound collected by the microphone 101 (hereinafter referred to as “text image”) at a predetermined position on the display 102. Realize the function presented to.
 入出力インタフェース13は、以下の少なくとも1つを取得する。
 ・マイクロホン101で集音された音声信号
 ・グラス型ディスプレイデバイス1に接続される入力デバイスから入力された使用者の指示
 入力デバイスは、例えば、駆動ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せである。
 また、入出力インタフェース13は、ディスプレイデバイス1に接続される出力デバイスに情報を出力するように構成される。出力デバイスは、例えば、ディスプレイ102である。
The input / output interface 13 acquires at least one of the following.
-Voice signal collected by the microphone 101-User's instruction input from the input device connected to the glass-type display device 1. The input device may be, for example, a drive button, a keyboard, a pointing device, a touch panel, a remote controller, or a switch. , Or a combination thereof.
Further, the input / output interface 13 is configured to output information to an output device connected to the display device 1. The output device is, for example, a display 102.
 通信インタフェース14は、ディスプレイデバイス1と図示されない外部装置(例えば、サーバ、又は携帯端末)との間の通信を制御するように構成される。 The communication interface 14 is configured to control communication between the display device 1 and an external device (for example, a server or a mobile terminal) (not shown).
(2)実施形態の概要
 本実施形態の概要を説明する。図3は、本実施形態の概要の説明図である。
(2) Outline of the embodiment An outline of the present embodiment will be described. FIG. 3 is an explanatory diagram of an outline of the present embodiment.
 図3において、ディスプレイデバイス1を装着する装着者P1は、話者P2~P4と会話をしている。
 マイクロホン101は、話者P2~P4の発話音を集音する。
 コントローラー10は、集音された発話音の到来方向を推定する。
 コントローラー10は、集音された発話音に対応する音声信号を解析することにより、発話音に対応するテキストを決定する。
 コントローラー10は、決定されたテキストに対応するテキスト画像T1~T3を生成する。
 コントローラー10は、テキスト画像T1~T3のそれぞれについて、発話音の到来方向に応じた提示態様を決定する。
 コントローラー10は、テキスト画像T1~T3を、決定した提示態様でディスプレイ102-1~102-32に提示する。
In FIG. 3, the wearer P1 who wears the display device 1 has a conversation with the speakers P2 to P4.
The microphone 101 collects the utterance sounds of the speakers P2 to P4.
The controller 10 estimates the arrival direction of the collected utterance sound.
The controller 10 determines the text corresponding to the utterance sound by analyzing the audio signal corresponding to the collected utterance sound.
The controller 10 generates text images T1 to T3 corresponding to the determined text.
The controller 10 determines the presentation mode of each of the text images T1 to T3 according to the arrival direction of the utterance sound.
The controller 10 presents the text images T1 to T3 on the displays 102-1 to 102-32 in the determined presentation mode.
(3)提示処理
 本実施形態の提示処理を説明する。図4は、本実施形態の提示処理の一例を表すフローチャートである。図5は、話者から発せられる発話音の集音を説明するための図である。図6は、発話音の到来方向を説明するための図である。図7は、図2のグラス型ディスプレイデバイスの提示例を表す模式図である。図8は、装着者の視界を説明するための図である。
(3) Presentation processing The presentation processing of the present embodiment will be described. FIG. 4 is a flowchart showing an example of the presentation process of the present embodiment. FIG. 5 is a diagram for explaining the collection of utterance sounds emitted from the speaker. FIG. 6 is a diagram for explaining the arrival direction of the utterance sound. FIG. 7 is a schematic diagram showing a presentation example of the glass-type display device of FIG. FIG. 8 is a diagram for explaining the field of view of the wearer.
 各マイクロホン101は、話者から発せられる発話音をそれぞれ集音する。例えば、図2に示される例では、ディスプレイデバイス1の右テンプル21、右ヨロイ22、ブリッジ23、左ヨロイ24、左テンプル25にそれぞれ配置されているマイクロホン101-1~101-5は、図5に示されるパスを介して到来した発話音を集音する。マイクロホン101-1~101-5は、集音した発話音を音声信号へ変換する。 Each microphone 101 collects the utterance sound emitted from the speaker. For example, in the example shown in FIG. 2, the microphones 101-1 to 101-5 arranged in the right temple 21, the right twist 22, the bridge 23, the left twist 24, and the left temple 25 of the display device 1 are shown in FIG. Collects the utterance sounds that arrive through the path shown in. The microphones 101-1 to 101-5 convert the collected utterance sound into an audio signal.
 コントローラー10は、マイクロホン101で変換された音声信号の取得(S110)を実行する。 The controller 10 executes acquisition (S110) of the audio signal converted by the microphone 101.
 具体的には、プロセッサ12は、マイクロホン101-1~101-5から送信される、話者P2,P3,P4の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン101-1~101-5から送信される音声信号には、発話音が進行してきたパスに基づく空間的な情報が含まれている。 Specifically, the processor 12 acquires an audio signal including an utterance sound emitted from at least one of the speakers P2, P3, and P4 transmitted from the microphones 101-1 to 101-5. The audio signals transmitted from the microphones 101-1 to 101-5 include spatial information based on the path through which the utterance sound has progressed.
 ステップS110の後、コントローラー10は、到来方向の推定(S111)を実行する。 After step S110, the controller 10 executes estimation of the arrival direction (S111).
 具体的には、記憶装置11には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係が記述されている。 Specifically, the storage device 11 stores the arrival direction estimation model. The arrival direction estimation model describes the correlation between the spatial information contained in the voice signal and the arrival direction of the utterance sound.
 到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)が用いられる。 Any existing method may be used as the arrival direction estimation method used in the arrival direction estimation model. For example, as the arrival direction estimation method, MUSIC (Multiple Signal Classification) using the eigenvalue expansion of the input correlation matrix, the minimum norm method, or ESPRIT (Estimation of Signal Parameters via Rotational Invariance Techniques) is used.
 プロセッサ12は、記憶装置11に記憶されている到来方向推定モデルに、マイクロホン101-1~101-5から受信した音声信号を入力することで、マイクロホン101-1~101-5により集音された発話音の到来方向を推定する。このとき、プロセッサ12は、例えば、正面を零度とする軸からの偏角を発話音の到来方向として推定する。図6に示される例では、プロセッサ12は、話者P2から発せられた発話音の到来方向を、軸から右方向に角度A1と推定する。プロセッサ12は、話者P3から発せられた発話音の到来方向を、軸から左方向に角度A2と推定する。プロセッサ12は、話者P4から発せられた発話音の到来方向を、軸から左方向に角度A3と推定する。 The processor 12 is collected by the microphones 101-1 to 101-5 by inputting the audio signal received from the microphones 101-1 to 101-5 into the arrival direction estimation model stored in the storage device 11. Estimate the direction of arrival of the utterance sound. At this time, the processor 12 estimates, for example, the declination from the axis whose front is zero degree as the arrival direction of the utterance sound. In the example shown in FIG. 6, the processor 12 estimates the arrival direction of the utterance sound emitted from the speaker P2 as an angle A1 to the right from the axis. The processor 12 estimates the arrival direction of the utterance sound emitted from the speaker P3 as an angle A2 to the left from the axis. The processor 12 estimates the arrival direction of the utterance sound emitted from the speaker P4 as an angle A3 to the left from the axis.
 ステップS111の後、コントローラー10は、音声信号の抽出(S112)を実行する。 After step S111, the controller 10 executes audio signal extraction (S112).
 具体的には、記憶装置11には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、この方向にビームを有する指向性を形成するためのパラメータとの相関関係が記述されている。ここで、指向性を形成するためのパラメータは、複数の音声信号を増幅させる際に、又は減衰させる際に係るパラメータである。 Specifically, the beamforming model is stored in the storage device 11. The beamforming model describes the correlation between a given direction and the parameters for forming a directivity with a beam in this direction. Here, the parameter for forming the directivity is a parameter related to amplifying or attenuating a plurality of audio signals.
 プロセッサ12は、記憶装置11に記憶されているビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。 The processor 12 inputs the estimated arrival direction into the beamforming model stored in the storage device 11 to calculate the parameters for forming the directivity having the beam in the arrival direction.
 図6に示される例では、プロセッサ12は、計算された角度A1をビームフォーミングモデルに入力し、軸から右方向に角度A1の方向へビームを有する指向性を形成するためのパラメータを計算する。プロセッサ12は、計算された角度A2をビームフォーミングモデルに入力し、軸から左方向に角度A2の方向へビームを有する指向性を形成するためのパラメータを計算する。プロセッサ12は、計算された角度A3をビームフォーミングモデルに入力し、軸から左方向に角度A3の方向へビームを有する指向性を形成するためのパラメータを計算する。 In the example shown in FIG. 6, the processor 12 inputs the calculated angle A1 into the beamforming model and calculates the parameters for forming the directivity having the beam in the direction of the angle A1 to the right from the axis. The processor 12 inputs the calculated angle A2 into the beamforming model and calculates the parameters for forming the directivity having the beam in the direction of the angle A2 to the left from the axis. The processor 12 inputs the calculated angle A3 into the beamforming model and calculates the parameters for forming the directivity having the beam in the direction of the angle A3 to the left from the axis.
 プロセッサ12は、マイクロホン101-1~101-5から送信される音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。プロセッサ12は、増幅又は減衰させた音声信号を合成することで、受信した音声信号から、角度A1から到来した発話音についての音声信号を抽出する。 The processor 12 amplifies or attenuates the audio signal transmitted from the microphones 101-1 to 101-5 with the parameters calculated for the angle A1. The processor 12 synthesizes the amplified or attenuated audio signal to extract the audio signal for the utterance sound coming from the angle A1 from the received audio signal.
 プロセッサ12は、マイクロホン101-1~101-5から送信される音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。プロセッサ12は、増幅又は減衰させた音声信号を合成することで、受信した音声信号から、角度A2から到来した発話音についての音声信号を抽出する。 The processor 12 amplifies or attenuates the audio signal transmitted from the microphones 101-1 to 101-5 with the parameters calculated for the angle A2. The processor 12 synthesizes the amplified or attenuated audio signal to extract the audio signal for the utterance sound coming from the angle A2 from the received audio signal.
 プロセッサ12は、マイクロホン101-1~101-5から送信される音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。プロセッサ12は、増幅又は減衰させた音声信号を合成することで、受信した音声信号から、角度A3から到来した発話音についての音声信号を抽出する。 The processor 12 amplifies or attenuates the audio signal transmitted from the microphones 101-1 to 101-5 with the parameters calculated for the angle A3. The processor 12 synthesizes the amplified or attenuated audio signal to extract the audio signal for the utterance sound coming from the angle A3 from the received audio signal.
 ステップS112の後、コントローラー10は、音声認識(S113)を実行する。 After step S112, the controller 10 executes voice recognition (S113).
 具体的には、記憶装置11には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係が記述されている。音声認識モデルは、例えば、機械学習により学習された学習済モデルである。 Specifically, the voice recognition model is stored in the storage device 11. The speech recognition model describes the correlation between the speech signal and the text for the speech signal. The speech recognition model is, for example, a trained model learned by machine learning.
 プロセッサ12は、記憶装置11に記憶されている音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号と対応するテキストを決定する。 The processor 12 inputs the extracted voice signal into the voice recognition model stored in the storage device 11, and determines the text corresponding to the input voice signal.
 図6に示される例では、プロセッサ12は、角度A1~A3について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。 In the example shown in FIG. 6, the processor 12 determines the text corresponding to the input voice signal by inputting the voice signals extracted for the angles A1 to A3 into the voice recognition model.
 ステップS113の後、コントローラー10は、画像生成(S114)を実行する。 After step S113, the controller 10 executes image generation (S114).
 具体的には、プロセッサ12は、決定したテキストに基づき、テキスト画像を生成する。 Specifically, the processor 12 generates a text image based on the determined text.
 ステップS114の後、コントローラー10は、提示態様の決定(S115)を実行する。 After step S114, the controller 10 executes the determination of the presentation mode (S115).
 具体的には、プロセッサ12は、テキスト画像をディスプレイ102にどのように提示するかを決定する。 Specifically, the processor 12 determines how the text image is presented on the display 102.
 ステップS115の第1例では、プロセッサ12は、テキスト画像に係る音声信号の到来方向と対応する位置を、テキスト画像の提示位置として決定する。
 プロセッサ12は、当該到来方向に応じて、提示するテキスト画像の種類(「提示態様」の一例)を決定する。
In the first example of step S115, the processor 12 determines the position corresponding to the arrival direction of the audio signal related to the text image as the presentation position of the text image.
The processor 12 determines the type of the text image to be presented (an example of the "presentation mode") according to the arrival direction.
 より詳細には、プロセッサ12は、軸から右方向へ角度A1の方向について抽出した音声信号に基づいて生成されたテキスト画像T1の提示位置を、角度A1と対応する方向、かつ、所定の仰角方向の位置と決定する。グラス型ディスプレイデバイスに採用される例によれば、プロセッサ12は、グラス型ディスプレイデバイスの右側のディスプレイ102-1の、角度A1と対応する方向、かつ、所定の仰角方向の位置を、テキスト画像T1の提示位置とする。また、プロセッサ12は、装着者P1から所定の距離でテキスト画像T1が結像されるように、テキスト画像T1を提示することを決定する。
 プロセッサ12は、軸から左方向へ角度A2の方向について抽出した音声信号に基づいて生成されたテキスト画像T2の提示位置を、角度A2と対応する方向、かつ、所定の仰角方向の位置と決定する。グラス型ディスプレイデバイスに採用される例によれば、プロセッサ12は、グラス型ディスプレイデバイスの左側のディスプレイ102-2の、角度A2と対応する方向、かつ、所定の仰角方向の位置を、テキスト画像T2の提示位置とする。また、プロセッサ12は、装着者P1から所定の距離でテキスト画像T2が結像されるように、テキスト画像T2を提示することを決定する。
 プロセッサ12は、軸から左方向へ角度A3の方向について抽出した音声信号に基づいて生成されたテキスト画像T3の提示位置を、角度A3と対応する方向、かつ、所定の仰角方向の位置と決定する。グラス型ディスプレイデバイスに採用される例によれば、プロセッサ12は、グラス型ディスプレイデバイスの左側のディスプレイ102-2の、角度A3と対応する方向、かつ、所定の仰角方向の位置を、テキスト画像T3の提示位置とする。また、プロセッサ12は、装着者P1から所定の距離でテキスト画像T3が結像されるように、テキスト画像T3を提示することを決定する。
More specifically, the processor 12 sets the presentation position of the text image T1 generated based on the voice signal extracted in the direction of the angle A1 from the axis to the right in the direction corresponding to the angle A1 and the predetermined elevation direction. Determine the position of. According to the example adopted in the glass-type display device, the processor 12 positions the position of the display 102-1 on the right side of the glass-type display device in the direction corresponding to the angle A1 and in the predetermined elevation angle direction as the text image T1. The presentation position of. Further, the processor 12 determines to present the text image T1 so that the text image T1 is formed at a predetermined distance from the wearer P1.
The processor 12 determines the presentation position of the text image T2 generated based on the voice signal extracted in the direction of the angle A2 from the axis to the left as the position corresponding to the angle A2 and the position in the predetermined elevation angle direction. .. According to the example adopted in the glass-type display device, the processor 12 positions the position of the display 102-2 on the left side of the glass-type display device in the direction corresponding to the angle A2 and in the predetermined elevation angle direction as the text image T2. The presentation position of. Further, the processor 12 determines to present the text image T2 so that the text image T2 is formed at a predetermined distance from the wearer P1.
The processor 12 determines the presentation position of the text image T3 generated based on the voice signal extracted in the direction of the angle A3 from the axis to the left as the position corresponding to the angle A3 and the position in the predetermined elevation angle direction. .. According to the example adopted in the glass-type display device, the processor 12 positions the position of the display 102-2 on the left side of the glass-type display device in the direction corresponding to the angle A3 and in the predetermined elevation angle direction as the text image T3. The presentation position of. Further, the processor 12 determines to present the text image T3 so that the text image T3 is formed at a predetermined distance from the wearer P1.
 ステップS115の第2例では、プロセッサ12は、所定の位置をテキスト画像T1~T3の提示位置として決定する。
 プロセッサ12は、テキスト画像に係る音声信号の到来方向に対応する文字列及び記号の少なくとも1つを含む形式(「提示態様」の一例)で、テキスト画像T1~T3を提示することを決定する。
In the second example of step S115, the processor 12 determines a predetermined position as the presentation position of the text images T1 to T3.
The processor 12 determines to present the text images T1 to T3 in a format including at least one of a character string and a symbol corresponding to the direction of arrival of the voice signal relating to the text image (an example of the "presentation mode").
 ステップS115の後、コントローラー10は、画像提示(S116)を実行する。 After step S115, the controller 10 executes image presentation (S116).
 具体的には、プロセッサ12は、テキスト画像を、決定された提示態様でディスプレイ102に提示する。 Specifically, the processor 12 presents the text image on the display 102 in the determined presentation mode.
 ステップS115の第1例(図7)によれば、プロセッサ12は、テキスト画像T1を、ディスプレイ102-1の、角度A1と対応する方向、かつ、所定の仰角方向の位置に提示する。プロセッサ12は、テキスト画像T2を、ディスプレイ102-2の、角度A2と対応する方向、かつ、所定の仰角方向の位置に提示する。プロセッサ12は、テキスト画像T3を、ディスプレイ102-2の、角度A3と対応する方向、かつ、所定の仰角方向の位置に提示する。図7のディスプレイ102-1~102-2に破線で示される人型は、装着者P1がディスプレイ102-1~102-2を透過して視認可能な話者を補足的に表したものであり、ディスプレイ102-1~102-2に提示されるものではない。 According to the first example (FIG. 7) of step S115, the processor 12 presents the text image T1 at a position of the display 102-1 in the direction corresponding to the angle A1 and in the predetermined elevation angle direction. The processor 12 presents the text image T2 at a position on the display 102-2 in the direction corresponding to the angle A2 and in the predetermined elevation angle direction. The processor 12 presents the text image T3 at a position on the display 102-2 in the direction corresponding to the angle A3 and in the predetermined elevation angle direction. The humanoid figure shown by the broken line on the displays 102-1 to 102-2 in FIG. 7 is a supplementary representation of the speaker who can be seen through the displays 102-1 to 102-2 by the wearer P1. , Not presented on displays 102-1 to 102-2.
 ステップS115の第2例によれば、プロセッサ12は、テキスト画像T1を、ディスプレイ102-1の、所定の位置に、角度A1と対応する方向に応じた文字列及び記号の少なくとも1つを含む形式で提示する。プロセッサ12は、テキスト画像T2を、ディスプレイ102-2の、所定の位置に、角度A2と対応する方向に応じた文字列及び記号の少なくとも1つを含む形式で提示する。プロセッサ12は、テキスト画像T3を、ディスプレイ102-2の、所定の位置に、角度A3と対応する方向に応じた文字列及び記号の少なくとも1つを含む形式で提示する。一例として、向かって左の話者からの発話音に基づくテキスト画像には、例えば、「左」の文字又は「左」を想起させる記号が含まれ、向かって右の話者からの発話音に基づくテキスト画像には、例えば、「右」の文字又は「右」を想起させる記号が含まれる。 According to the second example of step S115, the processor 12 contains the text image T1 at a predetermined position on the display 102-1 and at least one of a character string and a symbol corresponding to the direction corresponding to the angle A1. Present at. The processor 12 presents the text image T2 in a predetermined position on the display 102-2 in a format that includes at least one of a string and a symbol corresponding to the direction corresponding to the angle A2. The processor 12 presents the text image T3 in a predetermined position on the display 102-2 in a format that includes at least one of a string and a symbol corresponding to the direction corresponding to the angle A3. As an example, a text image based on the utterance sound from the speaker on the left may contain, for example, the letters "left" or a symbol reminiscent of "left", to the utterance sound from the speaker on the right. Based text images include, for example, the letters "right" or symbols reminiscent of "right".
 このように、ディスプレイ102-1~102-2にテキスト画像T1~T3を提示することで、グラス型ディスプレイデバイス1の装着者P1には、図8に示されるように、話者P2が話した会話内容であるテキスト画像T1が、ディスプレイ102-1を透過して視認される話者P2と共に提示されることになる。装着者P1には、話者P3が話した会話内容であるテキスト画像T2が、ディスプレイ102-2を透過して視認される話者P3と共に提示されることになる。装着者P1には、話者P4が話した会話内容であるテキスト画像T3が、ディスプレイ102-2を透過して視認される話者P4と共に提示されることになる。 By presenting the text images T1 to T3 on the displays 102-1 to 102-2 in this way, the speaker P2 speaks to the wearer P1 of the glass-type display device 1 as shown in FIG. The text image T1 which is the conversation content is presented together with the speaker P2 which is visually recognized through the display 102-1. The text image T2, which is the conversation content spoken by the speaker P3, is presented to the wearer P1 together with the speaker P3 which is visually recognized through the display 102-2. The text image T3, which is the conversation content spoken by the speaker P4, is presented to the wearer P1 together with the speaker P4 which is visually recognized through the display 102-2.
(4)小括
 本実施形態によれば、発話音の到来方向に応じた提示態様で、発話音に対応するテキスト画像が提示される。これにより、ディスプレイデバイス1の装着者に対して、発話音の到来方向を容易に認知させることができる。
(4) Summary According to the present embodiment, a text image corresponding to the utterance sound is presented in a presentation mode according to the arrival direction of the utterance sound. As a result, the wearer of the display device 1 can easily recognize the direction of arrival of the utterance sound.
 また、本実施形態によれば、発話音の到来方向に応じた位置に画像を提示する提示態様としている。これにより、発話音の到来方向をより容易に認知させることができる。 Further, according to the present embodiment, the presentation mode is such that the image is presented at a position corresponding to the arrival direction of the utterance sound. This makes it easier to recognize the direction of arrival of the utterance sound.
 また、本実施形態によれば、取得された音声信号から、推定した到来方向に対応する音声信号が抽出される。これにより、発話音の到来方向を正確に認知させることができる。 Further, according to the present embodiment, the audio signal corresponding to the estimated arrival direction is extracted from the acquired audio signal. This makes it possible to accurately recognize the direction of arrival of the utterance sound.
 また、本実施形態によれば、ディスプレイデバイスは、グラス型ディスプレイデバイス、携帯端末、及び、会議システムの少なくとも1つの形態に適用される。これにより、様々な用途において、発話音の到来方向を容易に認知させることができる。 Further, according to the present embodiment, the display device is applied to at least one form of a glass type display device, a mobile terminal, and a conference system. This makes it possible to easily recognize the direction of arrival of the utterance sound in various uses.
(5)変形例
 本実施形態の変形例について説明する。
(5) Modification Example A modification of the present embodiment will be described.
(5.1)変形例1
 本実施形態の変形例1について説明する。変形例1では、ディスプレイデバイス1が複数のマイクロホン101を備えるマイクロホンモジュールと接続される例を示す。図9は、変形例1のディスプレイデバイスの構成を示す概略図である。
(5.1) Modification 1
A modification 1 of the present embodiment will be described. Modification 1 shows an example in which the display device 1 is connected to a microphone module including a plurality of microphones 101. FIG. 9 is a schematic view showing the configuration of the display device of the first modification.
 図9に示されるように、変形例1のディスプレイデバイス1では、通信インタフェース14は、マイクロホンモジュール101aと接続される。
 この場合、グラス型ディスプレイデバイス1のフレームにはマイクロホン101は配置されない。
As shown in FIG. 9, in the display device 1 of the first modification, the communication interface 14 is connected to the microphone module 101a.
In this case, the microphone 101 is not arranged on the frame of the glass-type display device 1.
 マイクロホンモジュール101aは、複数のマイクロホン101を備える。各マイクロホン101は、互いに所定の距離を隔てて配置される。マイクロホンモジュール101aは、以下に示される体のいずれかの部位に装着される。
  ・頭部
  ・襟元
  ・胸元
  ・腰元
  ・その他、装着者の中央を通過する部位
 マイクロホンモジュール101aは、装着者に装着されると、通信インタフェース14を介して、コントローラー10との間で通信する。
The microphone module 101a includes a plurality of microphones 101. The microphones 101 are arranged at a predetermined distance from each other. The microphone module 101a is attached to any part of the body shown below.
-Head-collar-chest-waist-Other parts that pass through the center of the wearer When the microphone module 101a is worn by the wearer, it communicates with the controller 10 via the communication interface 14.
 コントローラー10は、図4と同様に、ステップS110~ステップS116を実行し、ディスプレイ102-1~102-2にテキスト画像T1~T3を提示する。 The controller 10 executes steps S110 to S116 and presents the text images T1 to T3 on the displays 102-1 to 102-2 in the same manner as in FIG.
 変形例1によれば、マイクロホン101が配置されていないグラス型ディスプレイデバイス1であっても、マイクロホン101が集音した音に対応するテキスト画像を到来方向に応じた態様で提示することが可能となる。 According to the first modification, even in the glass-type display device 1 in which the microphone 101 is not arranged, it is possible to present a text image corresponding to the sound collected by the microphone 101 in a mode corresponding to the arrival direction. Become.
(5.2)変形例2
 本実施形態の変形例2について説明する。変形例2では、ディスプレイデバイス1が携帯端末を含む場合の例を示す。図10は、変形例2のディスプレイデバイスと、当該ディスプレイデバイスの提示例とを表す模式図である。
(5.2) Modification 2
Modification 2 of this embodiment will be described. Modification 2 shows an example in which the display device 1 includes a mobile terminal. FIG. 10 is a schematic diagram showing the display device of the modification 2 and the presentation example of the display device.
 変形例2において、図10の携帯端末は、ディスプレイデバイス1の一例である。携帯端末は、例えば、以下のいずれかを含む。
  ・スマートホン
  ・タブレット端末
  ・ディスプレイを備える携帯デバイス
  ・パーソナルコンピュータ(例えば、ラップトップコンピュータ)
In the second modification, the mobile terminal of FIG. 10 is an example of the display device 1. The mobile terminal includes, for example, any of the following.
・ Smartphones ・ Tablet terminals ・ Mobile devices with displays ・ Personal computers (for example, laptop computers)
 変形例2において、コントローラー10は、図4と同様に、ステップS110~ステップS116を実行する。 In the second modification, the controller 10 executes steps S110 to S116 in the same manner as in FIG.
 これにより、図10に示されるように、ディスプレイ102において、発話音の到来方向と対応する方向の位置に、テキスト画像T1~T3が提示される。 As a result, as shown in FIG. 10, the text images T1 to T3 are presented at positions on the display 102 in the direction corresponding to the arrival direction of the utterance sound.
 変形例2によれば、携帯端末にマイクロホンモジュール101aを接続すれば、マイクロホン101が集音した発話音に対応するテキスト画像を到来方向に応じた提示態様で提示することが可能となる。 According to the second modification, if the microphone module 101a is connected to the mobile terminal, it is possible to present a text image corresponding to the utterance sound collected by the microphone 101 in a presentation mode according to the arrival direction.
(5.3)変形例3
 本実施形態の変形例3について説明する。変形例3では、ディスプレイデバイス1がカメラを備える例を示す。図11は、変形例3のディスプレイデバイスの構成を示す概略図である。
(5.3) Modification 3
A modification 3 of the present embodiment will be described. Modification 3 shows an example in which the display device 1 includes a camera. FIG. 11 is a schematic view showing the configuration of the display device of the modification 3.
 図11に示されるように、ディスプレイデバイス1aは、マイクロホン101と、ディスプレイ102と、カメラ103と、コントローラー10aとを備える。
 カメラ103は、話者が撮影領域に含まれるように配置される。
 カメラ103は、所定の方向を撮影し、且つ、撮影信号を生成する。
As shown in FIG. 11, the display device 1a includes a microphone 101, a display 102, a camera 103, and a controller 10a.
The camera 103 is arranged so that the speaker is included in the shooting area.
The camera 103 shoots in a predetermined direction and generates a shooting signal.
 コントローラー10aは、ディスプレイデバイス1aを制御する情報処理装置である。コントローラー10aは、有線又は無線でマイクロホン101、ディスプレイ102、及びカメラ103と接続される。 The controller 10a is an information processing device that controls the display device 1a. The controller 10a is connected to the microphone 101, the display 102, and the camera 103 by wire or wirelessly.
 図11に示されるように、コントローラー10aは、記憶装置11と、プロセッサ12aと、入出力インタフェース13aと、通信インタフェース14と、を備える。 As shown in FIG. 11, the controller 10a includes a storage device 11, a processor 12a, an input / output interface 13a, and a communication interface 14.
 プロセッサ12aは、記憶装置11に記憶されたプログラムを起動することによって、コントローラー10aの機能を実現するように構成される。プロセッサ12aは、コンピュータの一例である。例えば、プロセッサ12aは、記憶装置11に記憶されたプログラムを起動することで、マイクロホン101で集音した発話音のテキスト画像をディスプレイ102の所定の位置に、カメラ103によって生成された撮影信号に対応する画像(以下「撮影画像」という)に重畳させて提示する機能を実現する。 The processor 12a is configured to realize the function of the controller 10a by activating the program stored in the storage device 11. The processor 12a is an example of a computer. For example, the processor 12a responds to a shooting signal generated by the camera 103 at a predetermined position on the display 102 by activating a program stored in the storage device 11 to display a text image of the utterance sound collected by the microphone 101 at a predetermined position. It realizes a function of superimposing and presenting an image to be displayed (hereinafter referred to as "captured image").
 入出力インタフェース13aは、以下の少なくとも1つを取得する。
 ・マイクロホン101で集音された音声信号
 ・カメラ103で撮影された撮影信号
 ・ディスプレイデバイス1に接続される入力デバイスから入力された使用者の指示
 入力デバイスは、例えば、駆動ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せである。
 また、入出力インタフェース13aは、ディスプレイデバイス1に接続される出力デバイスに情報を出力するように構成される。出力デバイスは、例えば、ディスプレイ102である。
The input / output interface 13a acquires at least one of the following.
-Voice signal collected by the microphone 101-Shooting signal taken by the camera 103-User's instruction input from the input device connected to the display device 1 The input device is, for example, a drive button, a keyboard, or a pointing device. , Touch panel, remote controller, switch, or a combination thereof.
Further, the input / output interface 13a is configured to output information to an output device connected to the display device 1. The output device is, for example, a display 102.
(5.3.1)提示処理
 変形例13の提示処理を、図4に示されるフローチャートを用いて説明する。
(5.3.1) Presentation processing The presentation processing of the modified example 13 will be described with reference to the flowchart shown in FIG.
 コントローラー10aは、図4と同様に、ステップS110~ステップS113を実行する。 The controller 10a executes steps S110 to S113 in the same manner as in FIG.
 ステップS113の後、コントローラー10aは、画像生成(S114)を実行する。 After step S113, the controller 10a executes image generation (S114).
 具体的には、コントローラー10aは、カメラ103によって生成された撮影信号を撮影画像に変換する。
 コントローラー10aは、図4と同様に、テキスト画像を生成する。
Specifically, the controller 10a converts the shooting signal generated by the camera 103 into a shooting image.
The controller 10a generates a text image as in FIG.
 ステップS114の後、コントローラー10aは、提示態様の決定(S115)を実行する。 After step S114, the controller 10a executes the determination of the presentation mode (S115).
 具体的には、プロセッサ12aは、テキスト画像と、撮影画像とをディスプレイ102にどのように提示するかを決定する。
 例えば、プロセッサ12aは、図4と同様に、テキスト画像に係る音声信号の到来方向と対応する位置を、テキスト画像の提示位置として決定し、且つ、到来方向に応じて、提示するテキスト画像の種類を決定する。
 プロセッサ12aは、到来方向に応じて、撮影画像の提示位置と、提示する撮影画像の種類とを決定する。
Specifically, the processor 12a determines how the text image and the captured image are presented on the display 102.
For example, the processor 12a determines the position corresponding to the arrival direction of the audio signal related to the text image as the presentation position of the text image, and the type of the text image to be presented according to the arrival direction, as in FIG. To decide.
The processor 12a determines the presentation position of the captured image and the type of the captured image to be presented according to the arrival direction.
 ステップS115の後、コントローラー10aは、画像提示(S116)を実行する。 After step S115, the controller 10a executes the image presentation (S116).
 具体的には、プロセッサ12aは、決定された提示態様で、ステップS114で生成したテキスト画像を撮影画像に重畳させて、ディスプレイ102に提示する。 Specifically, the processor 12a superimposes the text image generated in step S114 on the captured image and presents it on the display 102 in the determined presentation mode.
(5.3.2)変形例3のディスプレイデバイスの第1例
 変形例3のディスプレイデバイスの第1例について説明する。変形例3のディスプレイデバイスの第1例では、ディスプレイデバイス1aがグラス型ディスプレイデバイスを含む例を示す。図12は、変形例3のディスプレイデバイスの第1例と、当該ディスプレイデバイスの提示例とを表す模式図である。図13は、図11に示されるカメラによる撮影範囲を表す模式図である。
(5.3.2.) First Example of Display Device of Modification Example 3 The first example of the display device of Modification 3 will be described. The first example of the display device of the modification 3 shows an example in which the display device 1a includes a glass type display device. FIG. 12 is a schematic diagram showing a first example of the display device of the modified example 3 and a presentation example of the display device. FIG. 13 is a schematic diagram showing a shooting range by the camera shown in FIG.
 図12に示される例では、カメラ103は、装着者の視界を含む領域を撮影するように、ブリッジ23に配置される。カメラ103は、撮影範囲が装着者の視界を含む範囲となるように設定されている。
 図13において、実線は、カメラ103による撮影範囲を表し、破線は装着者の視界を表す。図13に示される例によれば、カメラ103は、装着者の視界に入る景色を撮影可能となっている。これにより、装着者の視界に話者P2~P4が含まれる場合、カメラ103は、話者P2~P4を撮影することになる。
In the example shown in FIG. 12, the camera 103 is arranged on the bridge 23 so as to capture an area including the wearer's field of view. The camera 103 is set so that the shooting range includes the field of view of the wearer.
In FIG. 13, the solid line represents the shooting range by the camera 103, and the broken line represents the field of view of the wearer. According to the example shown in FIG. 13, the camera 103 is capable of capturing a view that is in the field of view of the wearer. As a result, when the wearer's field of view includes the speakers P2 to P4, the camera 103 takes a picture of the speakers P2 to P4.
 コントローラー10aは、変形例3で説明されたように、図4に示されるステップS110~ステップS114を実行する。 The controller 10a executes steps S110 to S114 shown in FIG. 4, as described in the modified example 3.
 ステップS114の後、コントローラー10aは、提示態様の決定(S115)を実行する。 After step S114, the controller 10a executes the determination of the presentation mode (S115).
 具体的には、プロセッサ12aは、所定の到来方向について抽出した音声信号に基づいて生成されたテキスト画像T1の提示位置を、到来方向と対応する方向、かつ、所定の仰角方向の位置と決定する。すなわち、プロセッサ12aは、ディスプレイ102-1の、到来方向と対応する方向、かつ、所定の仰角方向の位置を、テキスト画像T1の提示位置とする。また、プロセッサ12aは、装着者から所定の距離でテキスト画像T1が結像されるように、テキスト画像T1を提示することを決定する。
 プロセッサ12aは、所定の到来方向について抽出した音声信号に基づいて生成されたテキスト画像T2、T3の提示位置を、到来方向と対応する方向、かつ、所定の仰角方向の位置と決定する。すなわち、プロセッサ12aは、ディスプレイ102-2の、到来方向と対応する方向、かつ、所定の仰角方向の位置を、テキスト画像T2、T3の提示位置とする。また、プロセッサ12aは、装着者から所定の距離でテキスト画像T2、T3が結像されるように、テキスト画像T2、T3を提示することを決定する。
 プロセッサ12aは、カメラ103の撮影方向に基づき、撮影画像の提示位置を決定する。また、プロセッサ12aは、装着者から所定の距離で撮影画像が結像されるように、撮影画像を提示することを決定する。
Specifically, the processor 12a determines the presentation position of the text image T1 generated based on the voice signal extracted in the predetermined arrival direction as the position corresponding to the arrival direction and the position in the predetermined elevation angle direction. .. That is, the processor 12a sets the position of the display 102-1 in the direction corresponding to the arrival direction and the predetermined elevation angle direction as the presentation position of the text image T1. Further, the processor 12a determines to present the text image T1 so that the text image T1 is formed at a predetermined distance from the wearer.
The processor 12a determines the presentation position of the text images T2 and T3 generated based on the voice signal extracted for the predetermined arrival direction as the position corresponding to the arrival direction and the position in the predetermined elevation angle direction. That is, the processor 12a sets the position of the display 102-2 in the direction corresponding to the arrival direction and the predetermined elevation angle direction as the presentation position of the text images T2 and T3. Further, the processor 12a determines to present the text images T2 and T3 so that the text images T2 and T3 are imaged at a predetermined distance from the wearer.
The processor 12a determines the presentation position of the captured image based on the imaging direction of the camera 103. Further, the processor 12a determines to present the photographed image so that the photographed image is formed at a predetermined distance from the wearer.
 ステップS115の後、コントローラー10aは、画像提示(S116)を実行する。
 具体的には、プロセッサ12aは、決定された提示態様で、ステップS114で生成したテキスト画像を撮影画像に重畳させて、ディスプレイ102に提示する。
After step S115, the controller 10a executes image presentation (S116).
Specifically, the processor 12a superimposes the text image generated in step S114 on the captured image and presents it on the display 102 in the determined presentation mode.
 図12に示される例によれば、プロセッサ12aは、撮影画像をディスプレイ102-1及びディスプレイ102-2に提示する。これにより、例えば、図12で示されるように撮影された話者P2の画像I1がディスプレイ102-1に提示され、話者P3、P4の画像I2、I3がディスプレイ102-2に提示される。
 プロセッサ12aは、ディスプレイ102-1の、発話音の到来方向と対応する方向、かつ、所定の仰角方向の位置に、テキスト画像T1を撮影画像に重畳させて提示する。
 プロセッサ12aは、ディスプレイ102-2の、発話音の到来方向と対応する方向、かつ、所定の仰角方向の位置に、テキスト画像T2~T3を撮影画像に重畳させて提示する。
According to the example shown in FIG. 12, the processor 12a presents the captured image on the display 102-1 and the display 102-2. Thereby, for example, the image I1 of the speaker P2 taken as shown in FIG. 12 is presented on the display 102-1, and the images I2 and I3 of the speakers P3 and P4 are presented on the display 102-2.
The processor 12a superimposes and presents the text image T1 on the captured image at a position on the display 102-1 in the direction corresponding to the arrival direction of the utterance sound and in the predetermined elevation angle direction.
The processor 12a superimposes the text images T2 to T3 on the captured image and presents the text images T2 to T3 at positions on the display 102-2 in the direction corresponding to the arrival direction of the utterance sound and in the predetermined elevation angle direction.
 このように、ディスプレイ102-1~102-2に画像I1~I3、及びテキスト画像T1~T3を提示することで、ディスプレイデバイス1aの装着者には、話者P2が話した会話内容であるテキスト画像T1が、話者P2を表す画像I1と共に提示されることになる。装着者P1には、話者P3が話した会話内容であるテキスト画像T2が、話者P3を表す画像I2と共に提示されることになる。装着者P1には、話者P4が話した会話内容であるテキスト画像T3が、話者P4を表す画像I3と共に提示されることになる。 By presenting the images I1 to I3 and the text images T1 to T3 on the displays 102-1 to 102-2 in this way, the wearer of the display device 1a is informed of the text that is the conversation content spoken by the speaker P2. The image T1 will be presented together with the image I1 representing the speaker P2. The wearer P1 is presented with the text image T2, which is the conversation content spoken by the speaker P3, together with the image I2 representing the speaker P3. The wearer P1 is presented with the text image T3, which is the conversation content spoken by the speaker P4, together with the image I3 representing the speaker P4.
(5.3.3)変形例3のディスプレイデバイスの第2例
 変形例3のディスプレイデバイスの第2例について説明する。変形例3のディスプレイデバイスの第2例では、ディスプレイデバイス1aが複数のマイクロホン101を備えるマイクロホンモジュールと接続される例を示す。図14は、変形例3のディスプレイデバイスの第2例と、当該ディスプレイデバイスの提示例とを表す模式図である。
(5.3.3) Second Example of Display Device of Modification Example 3 A second example of the display device of Modification 3 will be described. The second example of the display device of the modification 3 shows an example in which the display device 1a is connected to a microphone module including a plurality of microphones 101. FIG. 14 is a schematic diagram showing a second example of the display device of the modified example 3 and a presentation example of the display device.
 図14に示されるように、変形例3のディスプレイデバイスの第2例では、グラス型ディスプレイデバイス1aのフレームにマイクロホン101は配置されない。 As shown in FIG. 14, in the second example of the display device of the modification 3, the microphone 101 is not arranged in the frame of the glass type display device 1a.
 コントローラー10aは、変形例3のディスプレイデバイスの第1例で説明したように、図4に示されるステップS110~ステップS116を実行する。 The controller 10a executes steps S110 to S116 shown in FIG. 4, as described in the first example of the display device of the modification example 3.
 これにより、図14に示されるように、画像I1がディスプレイ102-1に提示され、画像I2、I3がディスプレイ102-2に提示される。また、テキスト画像T1が、ディスプレイ102-1の到来方向に対応した位置に重畳して提示される。また、テキスト画像T2、T3が、ディスプレイ102-2の到来方向に対応した位置に重畳して提示される。 As a result, as shown in FIG. 14, the image I1 is presented on the display 102-1, and the images I2 and I3 are presented on the display 102-2. Further, the text image T1 is superimposed and presented at a position corresponding to the arrival direction of the display 102-1. Further, the text images T2 and T3 are superimposed and presented at positions corresponding to the arrival direction of the display 102-2.
(5.3.4)変形例3のディスプレイデバイスの第3例
 変形例3のディスプレイデバイスの第3例について説明する。変形例3のディスプレイデバイスの第3例では、ディスプレイデバイス1aが携帯端末を含む例を示す。図15は、変形例3のディスプレイデバイスの第3例と、当該ディスプレイデバイスの提示例とを表す模式図である。
(5.3.4) Third Example of Display Device of Modification Example 3 A third example of the display device of Modification 3 will be described. In the third example of the display device of the modification 3, an example in which the display device 1a includes a mobile terminal is shown. FIG. 15 is a schematic diagram showing a third example of the display device of the modified example 3 and a presentation example of the display device.
 図15に示される例では、カメラ103は、使用者P1の視界を含む領域を撮影するように、ディスプレイ102の配置面の裏面に配置されたカメラが用いられる。 In the example shown in FIG. 15, as the camera 103, a camera arranged on the back surface of the arrangement surface of the display 102 is used so as to capture an area including the field of view of the user P1.
 コントローラー10aは、変形例3のディスプレイデバイスの第1例で説明したように、図4に示されるステップS110~ステップS114を実行する。 The controller 10a executes steps S110 to S114 shown in FIG. 4, as described in the first example of the display device of the modification 3.
 ステップS114の後、コントローラー10aは、提示態様の決定(ステップS115)を実行する。 After step S114, the controller 10a executes the determination of the presentation mode (step S115).
 具体的には、プロセッサ12aは、所定の到来方向について抽出した音声信号に基づいて生成されたテキスト画像T1~T3の提示位置を、到来方向と対応する方向の位置と決定する。携帯端末に採用される例によれば、プロセッサ12aは、携帯端末のディスプレイ102の、到来方向と対応する方向の位置を、テキスト画像T1~T3の提示位置とする。また、プロセッサ12aは、テキスト画像T1~T3を提示することを決定する。
 プロセッサ12aは、カメラ103の撮影方向に基づき、撮影画像の提示位置を決定する。また、プロセッサ12aは、撮影画像を提示することを決定する。
Specifically, the processor 12a determines the presentation position of the text images T1 to T3 generated based on the audio signal extracted in the predetermined arrival direction as the position in the direction corresponding to the arrival direction. According to the example adopted for the mobile terminal, the processor 12a sets the position of the display 102 of the mobile terminal in the direction corresponding to the arrival direction as the presentation position of the text images T1 to T3. Further, the processor 12a determines to present the text images T1 to T3.
The processor 12a determines the presentation position of the captured image based on the imaging direction of the camera 103. Further, the processor 12a determines to present the captured image.
 ステップS115の後、コントローラー10aは、画像提示(S116)を実行する。 After step S115, the controller 10a executes the image presentation (S116).
 具体的には、プロセッサ12aは、決定された提示態様で、ステップS114で生成したテキスト画像を撮影画像に重畳させて、ディスプレイ102に提示する。 Specifically, the processor 12a superimposes the text image generated in step S114 on the captured image and presents it on the display 102 in the determined presentation mode.
 図15に示される例によれば、プロセッサ12aは、撮影画像をディスプレイ102に提示する。これにより、例えば、図15で示されるように撮影された話者の画像I1~I3がディスプレイ102に提示される。プロセッサ12aは、携帯端末のディスプレイ102の、発話音の到来方向と対応する方向の位置に、テキスト画像T1~T3を提示する。 According to the example shown in FIG. 15, the processor 12a presents the captured image on the display 102. Thereby, for example, the speaker images I1 to I3 taken as shown in FIG. 15 are presented on the display 102. The processor 12a presents the text images T1 to T3 at positions on the display 102 of the mobile terminal in the direction corresponding to the arrival direction of the utterance sound.
 このように、ディスプレイ102に画像I1~I3、及びテキスト画像T1~T3を提示することで、ディスプレイデバイス1aの使用者P1には、話者P2が話した会話内容であるテキスト画像T1が、話者P2を表す画像I1と共に提示されることになる。使用者P1には、話者P3が話した会話内容であるテキスト画像T2が、話者P3を表す画像I2と共に提示されることになる。使用者P1には、話者P4が話した会話内容であるテキスト画像T3が、話者P4を表す画像I3と共に提示されることになる。 By presenting the images I1 to I3 and the text images T1 to T3 on the display 102 in this way, the text image T1 which is the conversation content spoken by the speaker P2 is spoken to the user P1 of the display device 1a. It will be presented together with the image I1 representing the person P2. The text image T2, which is the conversation content spoken by the speaker P3, is presented to the user P1 together with the image I2 representing the speaker P3. The text image T3, which is the conversation content spoken by the speaker P4, is presented to the user P1 together with the image I3 representing the speaker P4.
(5.3.5)変形例3のディスプレイデバイスの第4例
 変形例3のディスプレイデバイスの第4例について説明する。変形例3のディスプレイデバイスの第4例では、ディスプレイデバイス1aが会議システムに採用される例を示す。図16は、変形例3のディスプレイデバイスの第4例と、当該ディスプレイデバイスの提示例とを表す模式図である。
(5.3.5) Fourth Example of Display Device of Modification Example 3 A fourth example of the display device of Modification 3 will be described. The fourth example of the display device of the modification 3 shows an example in which the display device 1a is adopted in the conference system. FIG. 16 is a schematic diagram showing a fourth example of the display device of the modified example 3 and a presentation example of the display device.
 変形例3のディスプレイデバイスの第4例において、会議システムは、会議中に集音した発話音を、到来方向に応じた位置にテキスト画像としてディスプレイに提示するシステムである。 In the fourth example of the display device of the third modification, the conference system is a system that presents the utterance sound collected during the conference to the display as a text image at a position corresponding to the arrival direction.
 ディスプレイ102は、会議参加者が視認可能な位置に配置されている。 The display 102 is arranged at a position where the conference participants can see it.
 カメラ103は、会議参加者を撮影可能な位置に配置されている。図16に示される例では、カメラ103は、ディスプレイ102の上部に配置されている。カメラ103は、会議をしている会議参加者P2~P4を撮影する。 The camera 103 is arranged at a position where the conference participants can be photographed. In the example shown in FIG. 16, the camera 103 is located above the display 102. The camera 103 photographs the conference participants P2 to P4 who are having a conference.
 マイクロホンモジュール101aは、以下に示されるいずれかの位置に配置される
  ・会議卓上
  ・天井から吊るされた中空の位置
マイクロホンモジュール101aは、所定の位置に配置されると、コントローラー10aとの間でレギュレーションを実施する。
The microphone module 101a is placed in any of the positions shown below: -Conference tabletop-Hollow position suspended from the ceiling When the microphone module 101a is placed in a predetermined position, it regulates with the controller 10a. To carry out.
 コントローラー10aは、変形例3のディスプレイデバイスの第3例で説明したように、図4に示されるステップS110~ステップS116を実行する。 The controller 10a executes steps S110 to S116 shown in FIG. 4, as described in the third example of the display device of the modification 3.
 図16に示される例によれば、プロセッサ12aは、撮影画像をディスプレイ102に提示する。これにより、会議参加者P2~P4を撮影した画像I1~I3が、ディスプレイ102に提示される。プロセッサ12aは、ディスプレイ102の、発話音の到来方向と対応する方向の位置に、テキスト画像T1~T3を提示する。 According to the example shown in FIG. 16, the processor 12a presents the captured image on the display 102. As a result, the images I1 to I3 obtained by capturing the conference participants P2 to P4 are presented on the display 102. The processor 12a presents the text images T1 to T3 at positions on the display 102 in the direction corresponding to the arrival direction of the utterance sound.
 このように、ディスプレイ102に画像I1~I3、及びテキスト画像T1~T3を提示することで、会議参加者P2が話した会話内容であるテキスト画像T1が、会議参加者P2を表す画像I1と共に提示されることになる。会議参加者P3が話した会話内容であるテキスト画像T2が、会議参加者P3を表す画像I2と共に提示されることになる。会議参加者P4が話した会話内容であるテキスト画像T3が、会議参加者P4を表す画像I3と共に提示されることになる。 By presenting the images I1 to I3 and the text images T1 to T3 on the display 102 in this way, the text image T1 which is the conversation content spoken by the conference participant P2 is presented together with the image I1 representing the conference participant P2. Will be done. The text image T2, which is the conversation content spoken by the conference participant P3, is presented together with the image I2 representing the conference participant P3. The text image T3, which is the conversation content spoken by the conference participant P4, will be presented together with the image I3 representing the conference participant P4.
 変形例3によれば、撮影画像を提示すると共に、撮影画像に含まれる話者画像に合わせ、マイクロホン101が集音した発話音に対応するテキスト画像を到来方向に応じた提示態様で提示することが可能となる。これにより、音声の発生源(例えば、話者)とテキスト画像との関係の視認性を向上させることができる。 According to the third modification, the captured image is presented, and the text image corresponding to the utterance sound collected by the microphone 101 is presented in the presentation mode according to the arrival direction according to the speaker image included in the captured image. Is possible. This makes it possible to improve the visibility of the relationship between the sound source (for example, the speaker) and the text image.
(5.4)変形例4
 本実施形態の変形例4について説明する。変形例4では、コントローラーの機能がサーバ装置で実現される例を示す。図17は、変形例4のディスプレイデバイスの構成を示す概略図である。
(5.4) Modification 4
A modification 4 of the present embodiment will be described. Modification 4 shows an example in which the function of the controller is realized by the server device. FIG. 17 is a schematic view showing the configuration of the display device of the modified example 4.
 図17に示されるように、ディスプレイデバイス1bは、複数のマイクロホン101と、ディスプレイ102と、サーバ装置10bとを備える。 As shown in FIG. 17, the display device 1b includes a plurality of microphones 101, a display 102, and a server device 10b.
 サーバ装置10bは、ディスプレイデバイス1bを制御する情報処理装置である。サーバ装置10bは、有線又は無線でネットワークと接続される。 The server device 10b is an information processing device that controls the display device 1b. The server device 10b is connected to the network by wire or wirelessly.
 図17に示されるように、サーバ装置10bは、記憶装置11と、プロセッサ12bと、入出力インタフェース13と、通信インタフェース14bと、を備える。 As shown in FIG. 17, the server device 10b includes a storage device 11, a processor 12b, an input / output interface 13, and a communication interface 14b.
 プロセッサ12bは、記憶装置11に記憶されたプログラムを起動することによって、サーバ装置10bの機能を実現するように構成される。プロセッサ12bは、コンピュータの一例である。例えば、プロセッサ12bは、記憶装置11に記憶されたプログラムを起動することで、マイクロホン101で集音した発話音に基づくテキスト画像をディスプレイ102の所定の位置へ提示する機能を実現する。 The processor 12b is configured to realize the function of the server device 10b by activating the program stored in the storage device 11. The processor 12b is an example of a computer. For example, the processor 12b realizes a function of activating a program stored in the storage device 11 to present a text image based on the utterance sound collected by the microphone 101 to a predetermined position on the display 102.
 通信インタフェース14bは、ディスプレイデバイス1bとマイクロホン101、及びディスプレイ102との間のネットワークを介した通信を制御するように構成される。 The communication interface 14b is configured to control communication via a network between the display device 1b, the microphone 101, and the display 102.
 変形例4において、サーバ装置10bは、図4と同様に、ステップS110~ステップS116を実行する。 In the modification 4, the server device 10b executes steps S110 to S116 in the same manner as in FIG.
 変形例4によれば、端末側に複雑な計算可能なプロセッサが供えられていなくても、マイクロホン101が集音した発話音に対応するテキスト画像を到来方向に応じた提示態様で提示することが可能となる。 According to the fourth modification, even if the terminal side is not provided with a complicated computable processor, the text image corresponding to the utterance sound collected by the microphone 101 can be presented in a presentation mode according to the arrival direction. It will be possible.
(5.5)変形例5
 本実施形態の変形例5について説明する。変形例5では、変形例4のディスプレイデバイスがカメラを備える例を示す。図18は、変形例5のディスプレイデバイスの構成を示す概略図である。図19は、図18に示されるディスプレイデバイスの一例である会議システムの模式図である。
(5.5) Modification 5
A modification 5 of the present embodiment will be described. Modification 5 shows an example in which the display device of modification 4 includes a camera. FIG. 18 is a schematic view showing the configuration of the display device of the modified example 5. FIG. 19 is a schematic diagram of a conference system, which is an example of the display device shown in FIG.
 図18に示されるように、ディスプレイデバイス1cは、複数のマイクロホン101と、ディスプレイ102と、カメラ103と、サーバ装置10cとを備える。 As shown in FIG. 18, the display device 1c includes a plurality of microphones 101, a display 102, a camera 103, and a server device 10c.
 サーバ装置10cは、ディスプレイデバイス1cを制御する装置である。サーバ装置10cは、有線又は無線でネットワークと接続される。 The server device 10c is a device that controls the display device 1c. The server device 10c is connected to the network by wire or wirelessly.
 図18に示されるように、サーバ装置10cは、記憶装置11と、プロセッサ12cと、入出力インタフェース13と、通信インタフェース14cと、を備える。 As shown in FIG. 18, the server device 10c includes a storage device 11, a processor 12c, an input / output interface 13, and a communication interface 14c.
 プロセッサ12cは、記憶装置11に記憶されたプログラムを起動することによって、サーバ装置10cの機能を実現するように構成される。プロセッサ12cは、コンピュータの一例である。例えば、プロセッサ12cは、記憶装置11に記憶されたプログラムを起動することで、マイクロホン101で集音した発話音に基づくテキスト画像をディスプレイ102の所定の位置へ提示する機能を実現する。 The processor 12c is configured to realize the function of the server device 10c by activating the program stored in the storage device 11. The processor 12c is an example of a computer. For example, the processor 12c realizes a function of activating a program stored in the storage device 11 to present a text image based on the utterance sound collected by the microphone 101 to a predetermined position on the display 102.
 通信インタフェース14cは、ディスプレイデバイス1cとマイクロホン101、ディスプレイ102、及びカメラ103との間のネットワークを介した通信を制御するように構成される。 The communication interface 14c is configured to control communication via a network between the display device 1c and the microphone 101, the display 102, and the camera 103.
 図19に示される会議システムでは、遠隔で開催される会議が撮影され、かつ、当該会議の発話音が集音される。会議システムは、撮影画像をディスプレイに提示すると共に、発話音に基づくテキスト画像をディスプレイの、発話音の到来方向に応じた位置に提示する。以降、遠隔で開催される会議を遠隔会議と称する。 In the conference system shown in FIG. 19, a conference held remotely is photographed and the utterance sound of the conference is collected. The conference system presents the captured image on the display and presents the text image based on the utterance sound at the position of the display according to the arrival direction of the utterance sound. Hereinafter, a conference held remotely is referred to as a remote conference.
 ディスプレイ102は、以下の少なくともいずれかの者に視認可能な位置に配置されている。
  ・遠隔会議に参加する者
  ・遠隔会議をモニタする者
The display 102 is arranged at a position visible to at least one of the following persons.
・ Person who participates in the conference call ・ Person who monitors the conference call
 カメラ103は、遠隔会議を撮影可能な位置に配置されている。図19に示される例によれば、カメラ103は、遠隔会議に参加している会議参加者P2~P4を撮影する。カメラ103は、撮影し、且つ、撮影信号を生成する。カメラ103は、ネットワークを介して撮影信号をサーバ装置10cへ送信する。 The camera 103 is arranged at a position where a remote conference can be photographed. According to the example shown in FIG. 19, the camera 103 captures the conference participants P2 to P4 participating in the remote conference. The camera 103 shoots and generates a shooting signal. The camera 103 transmits a shooting signal to the server device 10c via the network.
 マイクロホンモジュール101aは、遠隔会議の発話音を集音可能な、以下に示されるいずれかの位置に配置される
  ・会議卓上
  ・天井から吊るされた中空の位置
マイクロホンモジュール101aは、所定の位置に配置されると、サーバ装置10cとの間でレギュレーションを実施する。
The microphone module 101a is placed in one of the positions shown below that can collect the spoken sound of the remote conference.-Conference tabletop-Hollow position suspended from the ceiling The microphone module 101a is placed in a predetermined position. Then, regulation is performed with the server device 10c.
 図19において、サーバ装置10cは、図4と同様に、ステップS110~ステップS116を実行する。 In FIG. 19, the server device 10c executes steps S110 to S116 in the same manner as in FIG.
 図19に示される例によれば、プロセッサ12cは、撮影画像をディスプレイ102に提示する。これにより、会議参加者P2~P4を撮影した画像I1~I3が、ディスプレイ102に提示される。プロセッサ12cは、ディスプレイ102の、発話音の到来方向と対応する方向の位置に、テキスト画像T1~T3を提示する。 According to the example shown in FIG. 19, the processor 12c presents the captured image on the display 102. As a result, the images I1 to I3 obtained by capturing the conference participants P2 to P4 are presented on the display 102. The processor 12c presents the text images T1 to T3 at positions on the display 102 in the direction corresponding to the arrival direction of the utterance sound.
 このように、ディスプレイ102に画像I1~I3、及びテキスト画像T1~T3を提示することで、会議参加者P2が話した会話内容であるテキスト画像T1が、会議参加者P2を表す画像I1と共に提示されることになる。会議参加者P3が話した会話内容であるテキスト画像T2が、会議参加者P3を表す画像I2と共に提示されることになる。会議参加者P4が話した会話内容であるテキスト画像T3が、会議参加者P4を表す画像I3と共に提示されることになる。 By presenting the images I1 to I3 and the text images T1 to T3 on the display 102 in this way, the text image T1 which is the conversation content spoken by the conference participant P2 is presented together with the image I1 representing the conference participant P2. Will be done. The text image T2, which is the conversation content spoken by the conference participant P3, is presented together with the image I2 representing the conference participant P3. The text image T3, which is the conversation content spoken by the conference participant P4, will be presented together with the image I3 representing the conference participant P4.
 変形例5によれば、撮影画像を提示すると共に、撮影画像に含まれる話者画像に合わせ、マイクロホン101が集音した発話音に対応するテキスト画像を到来方向に応じた提示態様で提示することが可能となる。 According to the fifth modification, the captured image is presented, and the text image corresponding to the utterance sound collected by the microphone 101 is presented in the presentation mode according to the arrival direction according to the speaker image included in the captured image. Is possible.
(6)その他の変形例
 本実施形態では、入出力インタフェース13に接続される入力デバイスから使用者の指示が入力される場合を説明したが、本実施形態は、通信インタフェース14に接続されるコンピュータ(例えば、スマートフォン)のアプリケーションによって提示される駆動ボタンオブジェクトから使用者の指示が入力される場合にも適用可能である。
(6) Other Modifications In the present embodiment, the case where the user's instruction is input from the input device connected to the input / output interface 13 has been described, but in the present embodiment, the computer connected to the communication interface 14 has been described. It is also applicable when a user's instruction is input from a drive button object presented by an application (for example, a smartphone).
 ディスプレイデバイス1は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイデバイス1は、例えば、以下の実現方法により実現可能である。
 ・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
 ・液晶ディスプレイ
 ・網膜投影ディスプレイ
 ・LED(Light Emitting Diode)ディスプレイ
 ・有機EL(Electro Luminescence)ディスプレイ
 ・レーザディスプレイ
 ・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
 特に、網膜投影ディスプレイには、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
The display device 1 may be realized by any method as long as the image can be presented to the user. The display device 1 can be realized by, for example, the following implementation method.
-HOE (Holographic optical element) or DOE (Diffractive optical element) using an optical element (for example, a light guide plate)
・ Liquid crystal display ・ Retinal projection display ・ LED (Light Emitting Diode) display ・ Organic EL (Electro Luminescence) display ・ Laser display ・ Optical elements (for example, lens, mirror, diffraction grid, liquid crystal, MEMS mirror, HOE) A display that guides the light emitted from the light emitter In particular, a retinal projection display makes it easy for even a person with low vision to observe an image. Therefore, it is possible to make a person suffering from both deafness and amblyopia more easily aware of the direction of arrival of the utterance sound.
 本実施形態では、ディスプレイデバイス1aがカメラ103を備える場合を例に説明したが、本実施形態は、ディスプレイデバイス1が、センシングするように構成されたセンサを備える場合にも適用可能である。当該センサは、例えば、以下の少なくとも1つである。
 ・人感センサ
 ・TOF(Time Of Flight)センサ
 ・ミリ波レーダー
 ・LiDAR(Light Detection And Ranging)
 ・イメージセンサ
 ディスプレイデバイス1が当該センサを備えている場合、例えば、入出力インタフェース13は、センサで発生したセンシング信号を取得する。プロセッサ12は、取得したセンシング信号に基づき、ステップS115においてテキスト画像の提示態様を決定する。これにより、テキスト画像が提示される精度を向上させることができる。
 センシング信号は、例えば、複数のマイクロホンで集音される領域がイメージセンサを備えるカメラによって撮影されることで得られた撮影信号である。
In the present embodiment, the case where the display device 1a includes the camera 103 has been described as an example, but the present embodiment can also be applied to the case where the display device 1 includes a sensor configured to sense. The sensor is, for example, at least one of the following.
・ Human sensor ・ TOF (Time Of Flight) sensor ・ Millimeter wave radar ・ LiDAR (Light Detection And Ranging)
-Image sensor When the display device 1 includes the sensor, for example, the input / output interface 13 acquires a sensing signal generated by the sensor. The processor 12 determines the presentation mode of the text image in step S115 based on the acquired sensing signal. This makes it possible to improve the accuracy with which the text image is presented.
The sensing signal is, for example, a shooting signal obtained by shooting a region collected by a plurality of microphones by a camera equipped with an image sensor.
 本実施形態では、撮影画像がある場合であっても、テキスト画像の提示位置を、発話音の到来方向に基づいて決定する場合を説明したが、本実施形態は、プロセッサ12a,12cがテキスト画像の提示位置を、発話音の到来方向から所定の範囲内に位置する話者についての画像と関連付けて決定する場合にも適用可能である。
 具体的には、例えば、プロセッサ12a,12cは、カメラ103の撮影方向に基づき、撮影画像の提示位置を決定する。プロセッサ12a,12cは、発話音の到来方向と、撮影画像に含まれる話者の位置とを関連付ける。プロセッサ12a,12cは、所定の到来方向について抽出した音声信号に基づいて生成されたテキスト画像T1~T3の提示位置を、到来方向と関連付けられた話者の近傍の位置と決定する。
In the present embodiment, the case where the presentation position of the text image is determined based on the arrival direction of the utterance sound has been described even when there is a captured image, but in the present embodiment, the processors 12a and 12c are the text images. It is also applicable when the presentation position of is determined in association with an image of a speaker located within a predetermined range from the arrival direction of the utterance sound.
Specifically, for example, the processors 12a and 12c determine the presentation position of the captured image based on the imaging direction of the camera 103. The processors 12a and 12c associate the arrival direction of the utterance sound with the position of the speaker included in the captured image. The processors 12a and 12c determine the presentation position of the text images T1 to T3 generated based on the audio signal extracted in the predetermined arrival direction as the position in the vicinity of the speaker associated with the arrival direction.
 本実施形態では、音声信号の抽出方法として、増幅又は減衰させた音声信号をビームフォーミングにより抽出する例を説明したが、本実施形態の範囲はこれに限られない。本実施形態の音声信号の抽出は、以下の方法でも実現可能である。
 ・Frostビームフォーマ
 ・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
In the present embodiment, an example of extracting an amplified or attenuated audio signal by beamforming has been described as a method of extracting an audio signal, but the scope of the present embodiment is not limited to this. The extraction of the audio signal of the present embodiment can also be realized by the following method.
・ Frost beamformer ・ Adaptive filter beamforming (for example, generalized sidelobe canceller)
 本実施形態では、テキスト画像の提示態様に提示位置と、テキスト画像の種類とが含まれる例を説明したが、本実施形態は、提示態様に、例えば、以下の態様が含まれる場合にも適用可能である。
  ・フォント
  ・文字の色
  ・絵文字
 提示態様にフォント、文字の色、絵文字等の態様が含まれる場合、プロセッサ12は、テキスト画像を発話音の到来方向に対応した位置に提示する代わりに、テキスト画像を、到来方向に応じた色又はフォント等でディスプレイ102に提示してもよい。
 本実施形態では、音声認識により、音声信号に基づいてテキストを作成する場合を説明した。本実施形態では、プロセッサ12は、例えば、マイクロホン101により集音された発話音についての音声解析、又はカメラ103により撮影された画像の画像解析により、話者の属性(以下「話者属性」という)を推定してもよい。話者属性は、例えば、以下を含む。
  ・機嫌
  ・性別
  ・年齢
 プロセッサ12は、推定した話者属性に基づき、テキスト画像の提示態様、例えば、フォント、文字の色、絵文字を決定する。これにより、ディスプレイデバイス1の装着者に対し、話者属性を容易に認知させることができる。
In the present embodiment, an example in which the presentation position and the type of the text image are included in the presentation mode of the text image has been described, but the present embodiment is also applied to the case where the presentation mode includes, for example, the following modes. It is possible.
-Font-Character color-Pictogram When the presentation mode includes font, character color, pictogram, etc., the processor 12 instead of presenting the text image at a position corresponding to the arrival direction of the spoken sound, the text image. May be presented on the display 102 in a color or font or the like according to the direction of arrival.
In the present embodiment, a case where a text is created based on a voice signal by voice recognition has been described. In the present embodiment, the processor 12 has a speaker attribute (hereinafter referred to as "speaker attribute") by, for example, voice analysis of the utterance sound collected by the microphone 101 or image analysis of an image taken by the camera 103. ) May be estimated. Speaker attributes include, for example:
-Mood-Gender-Age Based on the estimated speaker attributes, the processor 12 determines the presentation mode of the text image, for example, the font, the color of the character, and the pictogram. As a result, the wearer of the display device 1 can easily recognize the speaker attribute.
 本実施形態では、カメラ103で撮影された撮影画像がネットワークを介してサーバ装置10cに送信される場合を説明したが、本実施形態は、カメラ103で撮影された撮影画像がサーバ装置10cに送信されない場合にも適用可能である。この場合、カメラ103で撮影された撮影画像は、ディスプレイ102に提示される。 In the present embodiment, the case where the captured image captured by the camera 103 is transmitted to the server device 10c via the network has been described, but in the present embodiment, the captured image captured by the camera 103 is transmitted to the server device 10c. It is also applicable when it is not done. In this case, the captured image captured by the camera 103 is presented on the display 102.
 本実施形態では、プロセッサ12が、入力される音声信号、処理中の音声信号、又は処理後の音声信号に対して音声解析処理を適用することにより、取得された音声のうち発話音の音声を抽出し、抽出された音声の到来方向を指定し、且つ、抽出された音声に対応するテキスト画像を提示してもよい。これにより、発話音以外の音(例えば、環境音)を含む音声のうち、環境音に対する処理が省略されるため、情報処理装置の処理負荷を抑えることができる。 In the present embodiment, the processor 12 applies the voice analysis process to the input voice signal, the voice signal being processed, or the voice signal after the processing, so that the voice of the utterance sound among the voices acquired is obtained. You may specify the arrival direction of the extracted voice and present the text image corresponding to the extracted voice. As a result, the processing for the environmental sound is omitted from the voice including the sound other than the utterance sound (for example, the environmental sound), so that the processing load of the information processing apparatus can be suppressed.
 本実施形態では、記憶装置11に記憶されている音声認識モデルを使用する場合を説明したが、本実施形態は、通信インタフェース14を介して接続可能なサーバに記憶された音声認識モデルを使用する場合においても適用可能である。この場合、図5のステップS111~S115は、サーバのプロセッサによって実行される。 In the present embodiment, the case of using the voice recognition model stored in the storage device 11 has been described, but in the present embodiment, the voice recognition model stored in the server connectable via the communication interface 14 is used. It is also applicable in some cases. In this case, steps S111 to S115 in FIG. 5 are executed by the processor of the server.
 以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。 Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited to the above embodiments. Further, the above-described embodiment can be variously improved or modified without departing from the gist of the present invention. Further, the above embodiments and modifications can be combined.
(7)付記
 実施形態で説明した事項を、以下に付記する。
(7) Addendum The matters described in the embodiment are added below.
 (付記1)
 複数のマイクロホン101で集音された音声を取得する手段(例えば、ステップS110を実行するプロセッサ12)を具備し、
 取得された音声の到来方向を推定する手段(例えば、ステップS111を実行するプロセッサ12)を具備し、
 取得された音声に対応するテキスト画像を生成する手段(例えば、ステップS114を実行するプロセッサ12)を具備し、
 推定された到来方向を参照して、テキスト画像の提示態様を決定する手段(例えば、ステップS115を実行するプロセッサ12)を具備し、
 決定された提示態様で、テキスト画像を提示する手段(例えば、ステップS116を実行するプロセッサ12)を具備する、情報処理装置(例えば、コントローラー10)。
(Appendix 1)
A means for acquiring sound collected by a plurality of microphones 101 (for example, a processor 12 for executing step S110) is provided.
A means for estimating the arrival direction of the acquired voice (for example, a processor 12 for executing step S111) is provided.
A means for generating a text image corresponding to the acquired voice (for example, a processor 12 for executing step S114) is provided.
A means for determining the presentation mode of the text image (for example, the processor 12 for executing step S115) with reference to the estimated arrival direction is provided.
An information processing device (eg, controller 10) comprising means for presenting a text image (eg, a processor 12 performing step S116) in a determined presentation mode.
 (付記1)によれば、音声の到来方向を容易に認知させることができる。 According to (Appendix 1), the direction of arrival of voice can be easily recognized.
 (付記2)
 提示態様を決定する手段は、推定された到来方向に応じた位置にテキスト画像を提示する提示態様を決定する、(付記1)に記載の情報処理装置。
(Appendix 2)
The information processing apparatus according to (Appendix 1), wherein the means for determining the presentation mode determines the presentation mode in which the text image is presented at a position corresponding to the estimated arrival direction.
 (付記2)によれば、音声の到来方向をより容易に認知させることができる。 According to (Appendix 2), the direction of arrival of voice can be recognized more easily.
 (付記3)
 取得された音声から、推定しされた到来方向に対応する音声を抽出する手段(例えば、ステップS112を実行するプロセッサ12)を具備し、
 テキスト画像を生成する手段は、抽出された音声に対応するテキスト画像を生成する、(付記1)又は(付記2)に記載の情報処理装置。
(Appendix 3)
A means for extracting the voice corresponding to the estimated arrival direction from the acquired voice (for example, the processor 12 for executing step S112) is provided.
The information processing device according to (Appendix 1) or (Appendix 2), wherein the means for generating a text image is to generate a text image corresponding to the extracted voice.
 (付記3)によれば、音声の到来方向を正確に認知させることができる。 According to (Appendix 3), it is possible to accurately recognize the direction of arrival of voice.
 (付記4)
 取得された音声を解析することによって、話者属性を推定する手段を具備し、
 提示態様を決定する手段は、推定した話者属性を参照して、テキスト画像の提示態様を決定する、(付記1)乃至(付記3)のいずれかに記載の情報処理装置。
(Appendix 4)
It is equipped with a means for estimating speaker attributes by analyzing the acquired voice.
The information processing apparatus according to any one of (Appendix 1) to (Appendix 3), wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the estimated speaker attribute.
 (付記4)によれば、話者属性を容易に認知させることができる。 According to (Appendix 4), the speaker attribute can be easily recognized.
 (付記5)
 複数のマイクロホンで集音される領域がセンシングされたに関するセンシング信号を、センサを用いて取得する手段(例えば、入出力インタフェース13)を具備し、
 提示態様を決定する手段は、取得されたセンシング信号を参照して、テキスト画像の提示態様を決定する、(付記1)乃至(付記4)のいずれかに記載の情報処理装置。
(Appendix 5)
A means (for example, an input / output interface 13) for acquiring a sensing signal relating to the sensing of a region collected by a plurality of microphones by using a sensor is provided.
The information processing apparatus according to any one of (Appendix 1) to (Appendix 4), wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the acquired sensing signal.
 (付記5)によれば、テキスト画像が提示される精度を向上させることができる。 According to (Appendix 5), the accuracy of presenting the text image can be improved.
 (付記6)
 センシング信号は、イメージセンサを用いて領域が撮影された撮影信号である、(付記5)に記載の情報処理装置。
(Appendix 6)
The information processing device according to (Appendix 5), wherein the sensing signal is a photographing signal in which an area is photographed using an image sensor.
 (付記6)によれば、テキスト画像が提示される精度を向上させることができる。 According to (Appendix 6), the accuracy of presenting the text image can be improved.
 (付記7)
 領域が撮影された撮影信号を取得する手段(例えば、入出力インタフェース13a)を具備し、
 取得した撮影信号を撮影画像に変換する手段(例えば、ステップS114を実行するプロセッサ12)を具備し、
 テキスト画像を提示する手段は、テキスト画像を撮影画像に重畳させて提示する、(付記1)乃至(付記5)のいずれかに記載の情報処理装置。
(Appendix 7)
A means for acquiring a shooting signal in which a region is shot (for example, an input / output interface 13a) is provided.
A means for converting the acquired shooting signal into a shooting image (for example, a processor 12 for executing step S114) is provided.
The information processing device according to any one of (Appendix 1) to (Appendix 5), wherein the means for presenting the text image is superposed on the captured image and presented.
 (付記7)によれば、音声の発生源(例えば、話者)とテキスト画像との関係の視認性を向上させることができる。 According to (Appendix 7), it is possible to improve the visibility of the relationship between the voice source (for example, the speaker) and the text image.
 (付記8)
 撮影信号を解析することによって、話者属性を推定する手段を具備し、
 提示態様を決定する手段は、推定した話者属性を参照して、テキスト画像の提示態様を決定する、(付記6)又は(付記7)に記載の情報処理装置。
(Appendix 8)
It is equipped with a means to estimate the speaker attribute by analyzing the shooting signal.
The information processing apparatus according to (Appendix 6) or (Appendix 7), wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the estimated speaker attribute.
 (付記8)によれば、話者属性を容易に認知させることができる。 According to (Appendix 8), the speaker attribute can be easily recognized.
 (付記9)
 取得された音声のうち、人から発せられた発話音の音声を抽出する手段を具備し、
 到来方向を推定する手段は、抽出された音声の到来方向を推定し、
 テキスト画像を生成する手段は、抽出された音声に対応するテキスト画像を生成する、
(付記1)乃至(付記8)のいずれかに記載の情報処理装置。
(Appendix 9)
It is equipped with a means for extracting the voice of the utterance sound emitted from a person from the acquired voice.
The means of estimating the arrival direction is to estimate the arrival direction of the extracted voice and
The means for generating a text image is to generate a text image corresponding to the extracted voice.
The information processing apparatus according to any one of (Appendix 1) to (Appendix 8).
 (付記9)によれば、発話音以外の音(例えば、環境音)を含む音声のうち、環境音に対する処理が省略されるため、情報処理装置の処理負荷を抑えることができる。 According to (Appendix 9), among the voices including sounds other than the spoken sound (for example, environmental sounds), the processing for the environmental sounds is omitted, so that the processing load of the information processing device can be suppressed.
 (付記10)
 複数のマイクロホン101で集音された音声を取得する手段(例えば、ステップS110を実行するプロセッサ12)を具備し、
 取得された音声の到来方向を推定する手段(例えば、ステップS111を実行するプロセッサ12)を具備し、
 取得された音声に対応するテキスト画像を生成する手段(例えば、ステップS114を実行するプロセッサ12)を具備し、
 推定された到来方向を参照して、テキスト画像の提示態様を決定する手段(例えば、ステップS111を実行するプロセッサ12)を具備し、
 決定された提示態様で、テキスト画像を提示する手段(例えば、ステップS116を実行するプロセッサ12)を具備する、
ディスプレイデバイス1。
(Appendix 10)
A means for acquiring sound collected by a plurality of microphones 101 (for example, a processor 12 for executing step S110) is provided.
A means for estimating the arrival direction of the acquired voice (for example, a processor 12 for executing step S111) is provided.
A means for generating a text image corresponding to the acquired voice (for example, a processor 12 for executing step S114) is provided.
A means for determining the presentation mode of the text image (for example, the processor 12 for executing step S111) with reference to the estimated arrival direction is provided.
A means for presenting a text image (eg, a processor 12 performing step S116) in a determined presentation mode.
Display device 1.
 (付記10)によれば、音声の到来方向を容易に認知させることができる。 According to (Appendix 10), the direction of arrival of voice can be easily recognized.
 (付記11)
 ディスプレイデバイスは、グラス型ディスプレイデバイス、携帯端末、及び、会議システムの少なくとも1つである、(付記10)に記載のディスプレイデバイス。
(Appendix 11)
The display device according to (Appendix 10), wherein the display device is at least one of a glass type display device, a mobile terminal, and a conference system.
 (付記11)によれば、様々な用途において、音声の到来方向を容易に認知させることができる。 According to (Appendix 11), the direction of arrival of voice can be easily recognized in various uses.
 (付記12)
 ディスプレイデバイスは、網膜投影型ディスプレイデバイスである、(付記10)又は(付記11)に記載のディスプレイデバイス。
(Appendix 12)
The display device according to (Appendix 10) or (Appendix 11), wherein the display device is a retinal projection type display device.
 (付記12)によれば、難聴及び弱視の両方を患う人に対して、音声の到来方向を容易に認知させることができる。 According to (Appendix 12), a person suffering from both deafness and amblyopia can easily recognize the direction of arrival of voice.
 (付記13)
 コンピュータ(例えば、プロセッサ12)に、(付記1)乃至(付記12)のいずれかに記載の手段を実現させるためのプログラム。
(Appendix 13)
A program for causing a computer (for example, a processor 12) to realize the means according to any one of (Appendix 1) to (Appendix 12).
 (付記13)によれば、音声の到来方向を容易に認知させることができる。 According to (Appendix 13), the direction of arrival of voice can be easily recognized.
 (付記14)
 音声に対応する画像を提示する提示方法であって、
 複数のマイクロホンで集音された音声を取得するステップ(例えば、ステップS110)を具備し、
 取得された音声の到来方向を推定するステップ(例えば、ステップS111)を具備し、
 取得された音声に対応するテキスト画像を生成するステップ(例えば、ステップS114)を具備し、
 推定された到来方向を参照して、テキスト画像の提示態様を決定するステップ(例えば、ステップS115)を具備し、
 決定された提示態様で、テキスト画像を提示するステップ(例えば、ステップS116)を具備する、
方法。
(Appendix 14)
It is a presentation method that presents an image corresponding to voice.
A step (for example, step S110) for acquiring the sound collected by a plurality of microphones is provided.
A step (for example, step S111) for estimating the arrival direction of the acquired voice is provided.
A step (for example, step S114) for generating a text image corresponding to the acquired voice is provided.
A step (for example, step S115) for determining the presentation mode of the text image with reference to the estimated arrival direction is provided.
A step of presenting a text image (eg, step S116) in a determined presentation mode.
Method.
 (付記14)によれば、音声の到来方向を容易に認知させることができる。 According to (Appendix 14), the direction of arrival of voice can be easily recognized.
1     :グラス型ディスプレイデバイス
1     :ディスプレイデバイス
10    :コントローラー
11    :記憶装置
12    :プロセッサ
13    :入出力インタフェース
21    :右テンプル
22    :右ヨロイ
23    :ブリッジ
24    :左ヨロイ
25    :左テンプル
26    :リム
101   :マイクロホン
102   :ディスプレイ
103   :カメラ

 
1: Glass type display device 1: Display device 10: Controller 11: Storage device 12: Processor 13: Input / output interface 21: Right temple 22: Right twist 23: Bridge 24: Left twist 25: Left temple 26: Rim 101: Microphone 102: Display 103: Camera

Claims (14)

  1.  複数のマイクロホンで集音された音声を取得する手段を具備し、
     前記取得された音声の到来方向を推定する手段を具備し、
     前記取得された音声に対応するテキスト画像を生成する手段を具備し、
     前記推定された到来方向を参照して、前記テキスト画像の提示態様を決定する手段を具備し、
     前記決定された提示態様で、前記テキスト画像を提示する手段を具備する、
    情報処理装置。
    Equipped with a means to acquire the sound collected by multiple microphones,
    A means for estimating the arrival direction of the acquired voice is provided.
    A means for generating a text image corresponding to the acquired voice is provided.
    A means for determining the presentation mode of the text image with reference to the estimated arrival direction is provided.
    A means for presenting the text image in the determined presentation mode.
    Information processing device.
  2.  前記提示態様を決定する手段は、前記推定された到来方向に応じた位置に前記テキスト画像を提示する提示態様を決定する、請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the means for determining the presentation mode determines the presentation mode for presenting the text image at a position corresponding to the estimated arrival direction.
  3.  前記取得された音声から、前記推定したされた到来方向に対応する音声を抽出する手段を具備し、
     前記テキスト画像を生成する手段は、前記抽出された音声に対応するテキスト画像を生成する、請求項1又は請求項2に記載の情報処理装置。
    A means for extracting the voice corresponding to the estimated arrival direction from the acquired voice is provided.
    The information processing device according to claim 1 or 2, wherein the means for generating the text image is to generate a text image corresponding to the extracted voice.
  4.  前記取得された音声を解析することによって、話者属性を推定する手段を具備し、
     前記提示態様を決定する手段は、前記推定した話者属性を参照して、前記テキスト画像の提示態様を決定する、請求項1乃至請求項3のいずれかに記載の情報処理装置。
    A means for estimating speaker attributes by analyzing the acquired voice is provided.
    The information processing apparatus according to any one of claims 1 to 3, wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the estimated speaker attribute.
  5.  前記複数のマイクロホンで集音される領域がセンシングされたに関するセンシング信号を、センサを用いて取得する手段を具備し、
     前記提示態様を決定する手段は、前記取得されたセンシング信号を参照して、前記テキスト画像の提示態様を決定する、請求項1乃至請求項4のいずれかに記載の情報処理装置。
    A means for acquiring a sensing signal relating to the sensing of a region collected by the plurality of microphones by using a sensor is provided.
    The information processing apparatus according to any one of claims 1 to 4, wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the acquired sensing signal.
  6.  前記センシング信号は、イメージセンサを用いて前記領域が撮影された撮影信号である、
    請求項5に記載の情報処理装置。
    The sensing signal is a photographing signal obtained by photographing the region by using an image sensor.
    The information processing apparatus according to claim 5.
  7.  前記領域が撮影された撮影信号を取得する手段を具備し、
     前記取得した撮影信号を撮影画像に変換する手段を具備し、
     前記テキスト画像を提示する手段は、前記テキスト画像を前記撮影画像に重畳させて提示する、請求項1乃至請求項5のいずれかに記載の情報処理装置。
    The area is provided with a means for acquiring a photographed signal in which the area is photographed.
    A means for converting the acquired shooting signal into a shooting image is provided.
    The information processing device according to any one of claims 1 to 5, wherein the means for presenting the text image is presented by superimposing the text image on the photographed image.
  8.  前記撮影信号を解析することによって、話者属性を推定する手段を具備し、
     前記提示態様を決定する手段は、前記推定した話者属性を参照して、前記テキスト画像の提示態様を決定する、請求項6又は請求項7に記載の情報処理装置。
    A means for estimating the speaker attribute by analyzing the shooting signal is provided.
    The information processing apparatus according to claim 6 or 7, wherein the means for determining the presentation mode determines the presentation mode of the text image with reference to the estimated speaker attribute.
  9.  前記取得された音声のうち、人から発せられた発話音の音声を抽出する手段を具備し、
     前記到来方向を推定する手段は、前記抽出された音声の到来方向を推定し、
     前記テキスト画像を生成する手段は、前記抽出された音声に対応するテキスト画像を生成する、
    請求項1乃至請求項8のいずれかに記載の情報処理装置。
    A means for extracting the voice of the utterance sound emitted from a person from the acquired voice is provided.
    The means for estimating the arrival direction is to estimate the arrival direction of the extracted voice and to estimate the arrival direction.
    The means for generating the text image generates a text image corresponding to the extracted voice.
    The information processing apparatus according to any one of claims 1 to 8.
  10.  複数のマイクロホンで集音された音声を取得する手段を具備し、
     前記取得された音声の到来方向を推定する手段を具備し、
     前記取得された音声に対応するテキスト画像を生成する手段を具備し、
     前記推定された到来方向を参照して、前記テキスト画像の提示態様を決定する手段を具備し、
     前記テキスト画像を、前記決定された提示態様で、前記テキスト画像を提示する手段を具備する、
    ディスプレイデバイス。
    Equipped with a means to acquire the sound collected by multiple microphones,
    A means for estimating the arrival direction of the acquired voice is provided.
    A means for generating a text image corresponding to the acquired voice is provided.
    A means for determining the presentation mode of the text image with reference to the estimated arrival direction is provided.
    The text image is provided with a means for presenting the text image in the determined presentation mode.
    Display device.
  11.  前記ディスプレイデバイスは、グラス型ディスプレイデバイス、携帯端末、及び、会議システムの少なくとも1つである、請求項10に記載のディスプレイデバイス。 The display device according to claim 10, wherein the display device is at least one of a glass-type display device, a mobile terminal, and a conference system.
  12.  前記ディスプレイデバイスは、網膜投影型ディスプレイデバイスである、請求項10又は請求項11に記載のディスプレイデバイス。 The display device according to claim 10 or 11, wherein the display device is a retinal projection type display device.
  13.  コンピュータに、請求項1乃至請求項12のいずれかに記載の手段を実現させるためのプログラム。 A program for realizing the means according to any one of claims 1 to 12 on a computer.
  14.  音声に対応する画像を提示する提示方法であって、
     複数のマイクロホンで集音された音声を取得するステップを具備し、
     前記取得された音声の到来方向を推定するステップを具備し、
     前記取得された音声に対応するテキスト画像を生成するステップを具備し、
     前記推定された到来方向を参照して、前記テキスト画像の提示態様を決定するステップを具備し、
     前記決定された提示態様で、前記テキスト画像を提示するステップを具備する、
    方法。

     
    It is a presentation method that presents an image corresponding to voice.
    Equipped with a step to acquire the sound collected by multiple microphones,
    A step of estimating the arrival direction of the acquired voice is provided.
    A step of generating a text image corresponding to the acquired voice is provided.
    A step of determining the presentation mode of the text image with reference to the estimated arrival direction is provided.
    A step of presenting the text image in the determined presentation mode.
    Method.

PCT/JP2021/017640 2020-05-11 2021-05-10 Information processing device, display device, presentation method, and program WO2021230180A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022521892A JPWO2021230180A1 (en) 2020-05-11 2021-05-10

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-082945 2020-05-11
JP2020082945 2020-05-11

Publications (1)

Publication Number Publication Date
WO2021230180A1 true WO2021230180A1 (en) 2021-11-18

Family

ID=78525808

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/017640 WO2021230180A1 (en) 2020-05-11 2021-05-10 Information processing device, display device, presentation method, and program

Country Status (2)

Country Link
JP (1) JPWO2021230180A1 (en)
WO (1) WO2021230180A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157963A1 (en) * 2022-02-21 2023-08-24 ピクシーダストテクノロジーズ株式会社 Information processing apparatus, information processing method, and program
WO2023249073A1 (en) * 2022-06-23 2023-12-28 ピクシーダストテクノロジーズ株式会社 Information processing device, display device, information processing method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
US20150088500A1 (en) * 2013-09-24 2015-03-26 Nuance Communications, Inc. Wearable communication enhancement device
WO2016075782A1 (en) * 2014-11-12 2016-05-19 富士通株式会社 Wearable device, display control method, and display control program
JP2019057047A (en) * 2017-09-20 2019-04-11 株式会社東芝 Display control system, display control method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
US20150088500A1 (en) * 2013-09-24 2015-03-26 Nuance Communications, Inc. Wearable communication enhancement device
WO2016075782A1 (en) * 2014-11-12 2016-05-19 富士通株式会社 Wearable device, display control method, and display control program
JP2019057047A (en) * 2017-09-20 2019-04-11 株式会社東芝 Display control system, display control method and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157963A1 (en) * 2022-02-21 2023-08-24 ピクシーダストテクノロジーズ株式会社 Information processing apparatus, information processing method, and program
JP7399413B1 (en) 2022-02-21 2023-12-18 ピクシーダストテクノロジーズ株式会社 Information processing device, information processing method, and program
WO2023249073A1 (en) * 2022-06-23 2023-12-28 ピクシーダストテクノロジーズ株式会社 Information processing device, display device, information processing method, and program

Also Published As

Publication number Publication date
JPWO2021230180A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
US20170277257A1 (en) Gaze-based sound selection
JP5456832B2 (en) Apparatus and method for determining relevance of an input utterance
US11579837B2 (en) Audio profile for personalized audio enhancement
WO2021230180A1 (en) Information processing device, display device, presentation method, and program
US20220066207A1 (en) Method and head-mounted unit for assisting a user
JP6518134B2 (en) Pre-worn display device
CN110634189A (en) System and method for user alerts during immersive mixed reality experience
JP2016208348A (en) Display device, control method for display device, and program
KR20190053001A (en) Electronic device capable of moving and method for operating thereof
US11605191B1 (en) Spatial audio and avatar control at headset using audio signals
JP6364735B2 (en) Display device, head-mounted display device, display device control method, and head-mounted display device control method
CN116134838A (en) Audio system using personalized sound profile
TW200411627A (en) Robottic vision-audition system
JPWO2021230180A5 (en)
CN112751582A (en) Wearable device for interaction, interaction method and equipment, and storage medium
US10665243B1 (en) Subvocalized speech recognition
US20210174823A1 (en) System for and Method of Converting Spoken Words and Audio Cues into Spatially Accurate Caption Text for Augmented Reality Glasses
US20240119684A1 (en) Display control apparatus, display control method, and program
CN116670618A (en) Wearable electronic device receiving information from external wearable electronic device and operation method thereof
US20240129686A1 (en) Display control apparatus, and display control method
CN110730378A (en) Information processing method and system
US11871198B1 (en) Social network based voice enhancement system
WO2023249073A1 (en) Information processing device, display device, information processing method, and program
WO2023157963A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21804908

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022521892

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21804908

Country of ref document: EP

Kind code of ref document: A1