WO2022270456A1 - Display control device, display control method, and program - Google Patents

Display control device, display control method, and program Download PDF

Info

Publication number
WO2022270456A1
WO2022270456A1 PCT/JP2022/024487 JP2022024487W WO2022270456A1 WO 2022270456 A1 WO2022270456 A1 WO 2022270456A1 JP 2022024487 W JP2022024487 W JP 2022024487W WO 2022270456 A1 WO2022270456 A1 WO 2022270456A1
Authority
WO
WIPO (PCT)
Prior art keywords
display
arrival
sound
display control
text image
Prior art date
Application number
PCT/JP2022/024487
Other languages
French (fr)
Japanese (ja)
Inventor
愛実 田畑
晴輝 西村
彰 遠藤
恭寛 羽原
蔵酒 五味
優大 平良
Original Assignee
ピクシーダストテクノロジーズ株式会社
住友ファーマ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピクシーダストテクノロジーズ株式会社, 住友ファーマ株式会社 filed Critical ピクシーダストテクノロジーズ株式会社
Priority to JP2023530455A priority Critical patent/JPWO2022270456A1/ja
Publication of WO2022270456A1 publication Critical patent/WO2022270456A1/en
Priority to US18/545,187 priority patent/US20240119684A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/02Viewing or reading apparatus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/02Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • G09G5/30Control of display attribute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • G09G5/32Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory with means for controlling the display position
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/37Details of the operation on graphic patterns
    • G09G5/377Details of the operation on graphic patterns for mixing or overlaying two or more graphic patterns
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/38Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory with means for controlling the display position
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/64Constructional details of receivers, e.g. cabinets or dust covers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type

Definitions

  • the present disclosure relates to a display control device, a display control method, and a program.
  • Patent Literature 1 discloses a head-mounted display device for assisting hearing-impaired persons in recognizing ambient sounds. This device allows the wearer to visually recognize the surrounding sounds by displaying the results of speech recognition of ambient sounds using multiple microphones as text information in a part of the wearer's field of vision. make it possible.
  • a display method that is highly convenient for users is required. For example, when a plurality of people are having a conversation around a user, if the user can not only recognize the content of the utterance but also easily recognize who said the utterance, communication involving the user will be smoother. become.
  • An object of the present disclosure is to provide a user-friendly display method for a display device that displays a text image corresponding to voice.
  • a display control device has, for example, the following configuration. That is, a display control device for controlling the display of a display device, comprising acquisition means for acquiring sounds collected by a plurality of microphones, estimation means for estimating the direction of arrival of the sounds acquired by the acquisition means, displaying a text image corresponding to the voice acquired by the acquisition means in a predetermined text display area in the display section of the display device, and the arrival estimated by the estimation means at the display position in the display section; display control means for displaying a symbol image associated with the text image at a display position corresponding to a direction.
  • FIG. 4 is a diagram showing an example of a display on a display device;
  • FIG. 4 is a diagram showing an example of a display on a display device;
  • FIG. 4 is a diagram showing an example of a display on a display device;
  • FIG. 4 is a diagram showing an example of a display on a display device;
  • FIG. 10 is a diagram showing an example of change in display on a display device;
  • FIG. 10 is a diagram showing an example of change in display on a display device;
  • FIG. 4 is a diagram showing an example of change in display on a display device;
  • FIG. 4 is a diagram showing an example of a table that associates sound sources with symbols;
  • FIG. 1 is a diagram showing a configuration example of a display device according to this embodiment.
  • FIG. 2 is a diagram showing an outline of a glass-type display device, which is an example of the display device shown in FIG.
  • the display device 1 shown in FIG. 1 is configured to acquire speech and display a text image corresponding to the acquired speech in a manner that allows the direction of arrival of the speech to be identified.
  • Forms of the display device 1 include, for example, at least one of the following. ⁇ Glass type display device ⁇ Head mounted display ⁇ PC ⁇ Tablet terminal
  • the display device 1 comprises a plurality of microphones 101, a display 102 and a controller 10. As shown in FIG. Each microphone 101 is arranged so as to maintain a predetermined positional relationship with each other.
  • the display device 1 when the display device 1 is a glass-type display device, the display device 1 includes a right temple 21, a right end piece 22, a bridge 23, a left end piece 24, a left temple 25, a rim 26 and is wearable by the user.
  • a microphone 101 - 1 is arranged on the right temple 21 .
  • a microphone 101 - 2 is placed on the right end piece 22 .
  • a microphone 101 - 3 is placed on the bridge 23 .
  • a microphone 101 - 4 is placed on the left end piece 24 .
  • a microphone 101 - 5 is arranged on the left temple 25 .
  • the microphone 101 picks up sounds around the display device 1, for example. Sounds collected by the microphone 101 include, for example, at least one of the following sounds. ⁇ Sounds spoken by people ⁇ Sounds of the environment where the display device 1 is used (hereinafter referred to as “environmental sounds”)
  • the display 102 is a transparent member (for example, at least one of glass, plastic, and half mirror). In this case, the display 102 is placed within the field of view of the user wearing the glass display device.
  • the displays 102-1 to 102-2 are supported by the rim 26.
  • the display 102-1 is arranged so as to be positioned in front of the user's right eye when the user wears the display device 1.
  • FIG. The display 102-2 is arranged so as to be positioned in front of the user's left eye when the user wears the display device 1.
  • the display 102 presents (for example, displays) an image under the control of the controller 10.
  • a projector (not shown) placed behind the right temple 21 projects an image onto the display 102-1
  • a projector (not shown) placed behind the left temple 25 projects an image onto the display 102-2. be done.
  • the display 102-1 and the display 102-2 present images. The user can visually recognize the scenery transmitted through the display 102-1 and the display 102-2 at the same time when viewing the image.
  • the method by which the display device 1 presents images is not limited to the above example.
  • the display device 1 may project images directly from a projector to the user's eyes.
  • the controller 10 is an information processing device that controls the display device 1 .
  • the controller 10 is wired or wirelessly connected to the microphone 101 and the display 102 .
  • the controller 10 is arranged inside the right temple 21, for example.
  • the arrangement of the controller 10 is not limited to the example in FIG. 2, and the controller 10 may be configured separately from the display device 1, for example.
  • the controller 10 includes a storage device 11, a processor 12, an input/output interface 13, and a communication interface 14.
  • the storage device 11 is configured to store programs and data.
  • the storage device 11 is, for example, a combination of ROM (Read Only Memory), RAM (Random Access Memory), and storage (eg, flash memory or hard disk).
  • Programs include, for example, the following programs. ⁇ OS (Operating System) program ⁇ Application program that executes information processing
  • the data includes, for example, the following data. ⁇ Databases referenced in information processing ⁇ Data obtained by executing information processing (that is, execution results of information processing)
  • the processor 12 is configured to implement the functions of the controller 10 by activating programs stored in the storage device 11 .
  • Processor 12 is an example of a computer.
  • the processor 12 activates a program stored in the storage device 11 to display an image representing text (hereinafter referred to as a “text image”) corresponding to the speech sound collected by the microphone 101 at a predetermined position on the display 102 . Realize the function to be presented to.
  • the display device 1 may have dedicated hardware such as ASIC or FPGA, and at least part of the processing of the processor 12 described in this embodiment may be executed by the dedicated hardware.
  • the input/output interface 13 acquires at least one of the following. ⁇ Audio signal collected by the microphone 101 ⁇ User's instruction input from the input device connected to the controller 10 It's a combination of them. Also, the input/output interface 13 is configured to output information to an output device connected to the controller 10 .
  • An output device is, for example, the display 102 .
  • the communication interface 14 is configured to control communication between the display device 1 and an external device (eg, server or mobile terminal) not shown.
  • an external device eg, server or mobile terminal
  • FIG. 3 is a diagram showing the functions of the display device.
  • a wearer P1 who wears the display device 1 is having a conversation with speakers P2 to P4.
  • a microphone 101 picks up the uttered sounds of the speakers P2 to P4.
  • the controller 10 estimates the direction of arrival of the collected speech sound.
  • the controller 10 generates a text image 301 corresponding to the collected speech sound by analyzing an audio signal corresponding to the collected speech sound.
  • the controller 10 displays the text image 301 on the displays 102-1 to 102-2 in such a manner that the incoming direction of the speech sound corresponding to the text image can be identified.
  • the details of the display in which the direction of arrival can be identified will be described later with reference to FIGS. 7 to 9 and the like.
  • FIG. 4 is a flowchart showing an example of processing of the controller 10 .
  • FIG. 5 is a diagram for explaining sound collection by a microphone.
  • FIG. 6 is a diagram for explaining the arrival direction of sound.
  • a plurality of microphones 101 each collects the speech sound emitted by the speaker.
  • microphones 101-1 to 101-5 are arranged on the right temple 21, right end piece 22, bridge 23, left end piece 24, and left temple 25 of the display device 1, respectively.
  • Microphones 101-1 to 101-5 collect speech sounds arriving via the paths shown in FIG.
  • Microphones 101-1 to 101-5 convert collected speech sounds into audio signals.
  • the processing shown in FIG. 4 is started when the power of the display device 1 is turned on and the initial setting is completed.
  • the start timing of the processing shown in FIG. 4 is not limited to this.
  • the controller 10 acquires the audio signal converted by the microphone 101 (S110).
  • the processor 12 acquires from the microphones 101-1 to 101-5 audio signals including speech sounds uttered by at least one of the speakers P2, P3, and P4.
  • the audio signals obtained from the microphones 101-1 to 101-5 contain spatial information (for example, frequency characteristics, delays, etc.) based on paths along which the sound waves of the speech sound travel.
  • step S110 the controller 10 performs direction-of-arrival estimation (S111).
  • a direction-of-arrival estimation model is stored in the storage device 11 .
  • the direction-of-arrival estimation model describes information for identifying the correlation between the spatial information included in the speech signal and the direction of arrival of the speech sound.
  • Any existing method may be used as a direction-of-arrival estimation method using the direction-of-arrival estimation model.
  • MUSIC Multiple Signal Classification
  • minimum norm method minimum norm method
  • ESPRIT Estimated of Signal Parameters via Rotational Invariance Techniques
  • the processor 12 inputs the sound signals received from the microphones 101-1 to 101-5 to the direction-of-arrival estimation model stored in the storage device 11, so that the sounds collected by the microphones 101-1 to 101-5 are input. Estimate direction of arrival of speech sound.
  • the processor 12 sets the reference direction (in this embodiment, the front direction of the user wearing the display device 1) defined with reference to the microphones 101-1 to 101-5, from the axis with 0 degrees.
  • the direction of arrival of the speech sound is expressed by the declination of .
  • the processor 12 estimates the incoming direction of the speech sound emitted by the speaker P2 as an angle A1 to the right from the axis.
  • the processor 12 estimates the incoming direction of the speech sound emitted by the speaker P3 to be an angle A2 to the left from the axis.
  • the processor 12 estimates the incoming direction of the speech sound emitted by the speaker P4 to be an angle A3 to the left from the axis.
  • step S111 the controller 10 executes audio signal extraction (S112).
  • a beamforming model is stored in the storage device 11 .
  • the beamforming model describes information for identifying a correlation between a predetermined direction and parameters for forming directivity having a beam in that direction.
  • forming the directivity is a process of amplifying or attenuating a sound coming from a specific direction of arrival.
  • the processor 12 inputs the estimated direction of arrival into the beamforming model stored in the storage device 11 to calculate parameters for forming directivity having a beam in the direction of arrival.
  • the processor 12 inputs the calculated angle A1 into the beamforming model and calculates the parameters for forming the directivity with the beam in the direction of the angle A1 rightward from the axis.
  • the processor 12 inputs the calculated angle A2 into the beamforming model and calculates the parameters for forming the directivity with the beam directed at the angle A2 to the left of the axis.
  • the processor 12 inputs the calculated angle A3 into the beamforming model and calculates the parameters for forming the directivity with the beam directed at the angle A3 to the left of the axis.
  • the processor 12 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A1.
  • the processor 12 extracts the audio signal for the speech sound coming from the direction represented by the angle A1 by synthesizing the amplified or attenuated audio signal.
  • the processor 12 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A2.
  • the processor 12 extracts the audio signal for the speech sound coming from the direction represented by the angle A2 by synthesizing the amplified or attenuated audio signal.
  • the processor 12 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A3.
  • the processor 12 extracts the audio signal for the speech sound coming from the direction represented by the angle A3 by synthesizing the amplified or attenuated audio signal.
  • step S112 the controller 10 executes speech recognition (S113).
  • a speech recognition model is stored in the storage device 11.
  • a speech recognition model describes information for identifying a speech signal and the correlation of text to the speech signal.
  • a speech recognition model is, for example, a trained model generated by machine learning.
  • the processor 12 inputs the extracted speech signal to the speech recognition model stored in the storage device 11 to determine the text corresponding to the input speech signal.
  • the processor 12 inputs the speech signals extracted for the angles A1 to A3 to the speech recognition model respectively, thereby determining the text corresponding to the input speech signals.
  • step S113 the controller 10 executes text image generation (S114).
  • the processor 12 generates a text image representing the determined text.
  • step S114 the controller 10 determines the display mode (S115).
  • the processor 12 determines in what manner the display image including the text image is to be displayed on the display 102 .
  • step S115 the controller 10 executes image display (S116).
  • the processor 12 displays on the display 102 a display image according to the determined display mode.
  • the processor 12 causes the text image corresponding to the voice to be displayed in a predetermined text display area on the display 102 which is the display unit of the display device 1 .
  • the processor 12 displays the symbol image associated with the text image at the display position corresponding to the direction of arrival of the speech sound corresponding to the text image.
  • FIG. 7 is a diagram showing an example of display on a display device.
  • a screen 901 represents the field of view seen through the display 102 by the user wearing the display device 1 .
  • the images of speaker P3 and speaker P4 are real images seen by the user through display 102, and window 902, symbol 905, symbol 906, and mark 907 are displayed on display 102. This is an image.
  • the field of view seen through the display 102-1 and the field of view seen through the display 102-2 are actually slightly different in image position, but for simplicity of explanation here, each field of view is common. will be described as being represented by the screen 901 of .
  • a window 902 is displayed at a predetermined position within the screen 901 .
  • a window 902 displays a text image 903 generated in S114.
  • the text image 903 is displayed in a manner in which the utterances of multiple speakers can be identified. For example, if speaker P3's utterance is followed by speaker P4's utterance, the text corresponding to each utterance is displayed in separate lines. As more lines of text are displayed in window 902, text image 903 is scrolled, hiding the text of older utterances and displaying the text of newer utterances.
  • a symbol 904 is displayed to make it possible to identify whose statement each text included in the text image 903 represents.
  • Sound sources and symbol types are associated, for example, by a table 1000 shown in FIG.
  • the controller 10 refers to the table 1000 stored in the storage device 11 to determine the types of symbols to be displayed on the window 902 .
  • a heart-shaped symbol is displayed next to the text corresponding to the utterance of speaker P3, and a face-shaped symbol is displayed next to the text corresponding to the utterance of speaker P4.
  • a heart-shaped symbol 905 is displayed at a position corresponding to the direction of arrival of the voice uttered by speaker P3 (in the example of FIG. 7, a position overlapping the image of speaker P3 existing in the direction of arrival).
  • a face-shaped symbol 906 is displayed at a position corresponding to the direction of arrival of the voice uttered by speaker P4 (in the example of FIG. 7, the position overlapping the image of speaker P4 existing in the direction of arrival).
  • the types of symbols 905 and 906 correspond to the types of symbol 904 displayed together with text image 903 in window 902 .
  • the symbol 904 displayed together with the text representing the utterance of the speaker P3 in the window 902 is the same kind of symbol as the symbol 905 displayed at the position corresponding to the speaker P3 on the screen 901 .
  • the controller 10 may determine the symbol type based on the voice recognition result in S113.
  • the controller 10 may estimate the emotion of the speaker by speech recognition in S113, and determine the expression and color of the symbol corresponding to the speaker based on the estimated emotion. This makes it possible to present information about the speaker's emotions to the user of the display device 1 .
  • a mark 907 is displayed around the symbol 906 to indicate that the speaker P4 corresponding to the symbol 906 is speaking. That is, the mark 907 is displayed at a position corresponding to the arrival direction of the sound, and indicates that the sound is emitted from the sound source located in the arrival direction.
  • the processor 12 identifies the utterances of a plurality of speakers based on the result of estimating the direction of arrival of the voice. That is, when the difference between the direction of arrival of the voice corresponding to one utterance and the direction of arrival of the voice corresponding to another utterance is greater than or equal to a predetermined angle, the processor 12 detects that the utterances are utterances of different speakers ( In other words, it is determined that the sound is a sound emitted from a separate sound source). Then, the processor 12 displays the text images 903 so that the texts corresponding to a plurality of utterances with different directions of arrival can be identified, and the symbols 905 and 906 associated with each text are positioned according to the direction of arrival of the voice. display.
  • the text image 903 representing the utterance of the speaker P3 and the symbol 905 representing the arrival direction of the voice uttered by the speaker P3 are the same type of symbol 904 as the text image 903. It is assumed that they are related by being displayed in the vicinity.
  • the method of associating a text image representing an utterance of a specific speaker with a symbol image representing the direction of arrival of the voice uttered by the speaker is not limited to this example.
  • texts corresponding to statements with different arrival directions may be displayed in different colors.
  • the text image corresponding to the sound in a specific direction of arrival and the symbol image indicating the direction of arrival may be associated by being displayed in the same kind of color.
  • the text corresponding to the utterance of speaker P3 may be displayed in a first color, and a symbol of the first color may be displayed at a position indicating the direction of speaker P3. Then, the text corresponding to the utterance of speaker P4 may be displayed in a second color, and a symbol of the second color may be displayed at a position indicating the direction of speaker P4.
  • the symbols of the first color and the symbols of the second color may have different shapes or may have the same shape.
  • FIG. 8 is a diagram showing another example of display on the display device.
  • a screen 901 includes images of speakers P3 and P4 as in the example of FIG. 7, and a window 902 and a text image 903 are displayed.
  • symbols 904, 905 and 906 in FIG. 7 instead of symbols 904, 905 and 906 in FIG. 7, direction marks 1004, 1005 and 1006 are displayed.
  • Symbols 1005 and 1006 indicate the direction of arrival of the voice, that is, the position of the speaker. Symbols 1005 and 1006 are associated with different speakers, but may be symbols of the same type.
  • a direction mark 1004 indicates the direction of the sound source corresponding to each text included in the text image 903 .
  • arrows indicate whether the sound source is positioned to the right or left with respect to the front direction of the user (that is, the normal direction of the screen 901).
  • a rightward arrow is displayed next to the text corresponding to the utterances of the speaker P3 located to the right of the user's front, and corresponds to the utterances of the speaker P4 located to the left of the user's front.
  • the direction mark 1004 is not limited to two types indicating the right direction and the left direction, and may be a mark indicating more various directions. This makes it possible to identify which text represents which speaker's utterances even when there are three or more speakers.
  • the direction indicated by the direction mark 1004 is not limited to being determined by the position of the sound source relative to the front direction of the user, and may be determined based on the relative positions of a plurality of sound sources, for example. For example, if two speakers are positioned to the right of the user, a rightward arrow is displayed next to the text corresponding to the utterance of the speaker positioned relatively to the right, A left arrow may be displayed next to the text corresponding to the speaker's utterance located at .
  • FIG. 9 is a diagram showing another example of display on the display device.
  • FIG. 9(a) shows a screen 901 when the speaker P3 and the speaker P4 are positioned to the right out of the field of view of the user wearing the display device 1.
  • FIG. 9(b) shows the screen 901 when the speaker P3 is out of the user's field of view to the right and the speaker P4 is within the user's field of view. That is, when the user viewing the screen 901 of FIG. 9A turns slightly to the right, the screen 901 of FIG. 9B can be seen.
  • screen 901 includes, in addition to window 902 representing text corresponding to speech, direction indicator frame 1101 indicating the direction of a sound source with respect to the FOV (Field of View) of display device 1, FOV and sound source A bird's-eye view map 1102 showing the relationship with the direction of is displayed.
  • the FOV is an angle range preset for the display device 1, and has a predetermined width in each of the elevation direction and the azimuth direction centering on the reference direction of the display device 1 (the front direction of the wearer).
  • the FOV of the display device 1 is included in the field of view seen by the user through the display device 1 .
  • An arrow indicating the direction of the sound source with respect to the FOV and a symbol identifying the sound source existing in the direction indicated by the arrow are displayed in the direction indication frame 1101 .
  • a direction indicator frame 1101 is displayed on the right end of the screen 901.
  • the screen A direction indicator frame 1101 is displayed at the left end of 901 . That is, the direction indication frame 1101 is displayed at the end of the screen 901 corresponding to the incoming direction of the sound.
  • the symbol image associated with the text image 903 is displayed at a position corresponding to the incoming direction of the voice. This allows the user to easily recognize in which direction the sound source of the text displayed in the window 902 is emitted from the sound source with respect to the field of view seen through the display device 1 .
  • the display position of the direction indicator frame 1101 is not limited to the edge of the screen 901 . Further, the contents displayed in the direction indication frame 1101 are not limited to symbols and arrows, and at least one of these may not be included in the direction indication frame 1101, and other figures or symbols may indicate direction indications. It may be included in the frame 1101 . If the direction indication frame 1101 includes a symbol or figure indicating a direction such as an arrow, the direction indication frame 1101 may be displayed at a position that does not depend on the direction of the sound source.
  • An area 1103 indicating the FOV of the display device 1 and a symbol indicating the direction of the sound source are displayed on the bird's-eye view map 1102 .
  • the area 1103 is displayed at a fixed position on the bird's eye map 1102, and the symbol associated with the text image 903 is displayed on the bird's eye map 1102 at a position indicating the direction of the sound source (that is, a position corresponding to the direction of arrival of the sound).
  • a position indicating the direction of the sound source that is, a position corresponding to the direction of arrival of the sound.
  • area 1103 displayed on the bird's-eye view map 1102 does not have to strictly match the FOV of the display device 1 .
  • area 1103 may represent the range included in the field of view of a user wearing display device 1 .
  • the bird's-eye view map 1102 may indicate the reference direction of the display device 1 (the front direction of the wearer) instead of the FOV.
  • the symbol corresponding to the speaker P4 is displayed at a position overlapping the area 1103 on the bird's-eye view map 1102 .
  • the controller 10 causes the text image 903 corresponding to the voice acquired via the microphone 101 to be displayed in a predetermined text display area on the display section of the display device 1 .
  • the controller 10 displays the symbol image associated with the text image 903 at a display position within the display unit corresponding to the estimated arrival direction of the sound.
  • the text images corresponding to the voice are collectively displayed in a predetermined text display area regardless of the position of the sound source, so the user can easily follow the text images. Furthermore, even if the sound source is out of the user's field of view, the user can recognize the content of the utterance uttered by the sound source without facing the direction of the sound source.
  • the controller 10 causes the display unit to display information indicating the relationship between the range included in the visual field of the user wearing the display device 1 and the direction of the sound source.
  • the user can easily recognize in which direction the speaker is when a conversation is taking place outside the field of view or when the user is called out from the outside of the field of view. As a result, it is possible to quickly participate in conversations and respond to calls.
  • the controller 10 causes the sound to be emitted from a sound source located in the estimated direction of arrival of the sound at a position within the display section of the display device 1 that corresponds to the estimated direction of arrival of the sound. display a mark indicating that This allows the user to easily identify the speaking person even before text display by voice recognition is completed.
  • Modification 1 Modification 1 of the present embodiment will be described.
  • the controller 10 limits the total number of text image sentences displayed simultaneously on the display 102 that is the display unit of the display device 1 .
  • a sentence is a set of texts corresponding to speech from the same direction of arrival, collected in a single continuous sound collection period.
  • the controller 10 distinguishes and displays the texts corresponding to the sounds with different arrival directions among the sounds acquired through the microphone 101 as separate sentences.
  • the controller 10 distinguishes and displays texts corresponding to voices collected through a silence period longer than a predetermined time from among the voices acquired through the microphone 101 as separate sentences.
  • FIGS. 10(a) to 10(d) show examples of changes in the display of the display device.
  • the controller 10 has set the upper limit of the total number of sentences of the text image displayed on the display 102 to 3 at the same time.
  • a text image of a sentence corresponding to a certain direction of arrival (speech of speaker P5) and a text image of a sentence corresponding to speech of another direction of arrival (speech of speaker P6) are shown. are displayed so as to be identifiable by being displayed at positions different from each other.
  • the display method is not limited to this.
  • a text image displayed in a predetermined text display area and a symbol image associated with the text image are displayed, thereby displaying a plurality of sentences corresponding to a plurality of different arrival directions. It may be displayed so as to be identifiable.
  • sentences are represented by balloons, but they can also be represented by the method described with reference to FIGS. 7 to 9.
  • the controller 10 may perform processing to make the display of any sentence less conspicuous. For example, the controller 10 may reduce at least one of brightness, saturation, and contrast of sentences exceeding the upper limit, or reduce the size of any sentence.
  • the sentences displayed on the display 102 may be hidden after a predetermined period of time has elapsed, not only when the total number of displayed sentences reaches the upper limit.
  • FIGS. 11(a) to 11(d) show examples of changes in the display of the display device.
  • the controller 10 sets the upper limit of the number of sentences displayed simultaneously on the display 102 to two for each direction of arrival.
  • the number of text image sentences displayed simultaneously on the display 102 is limited for each direction of arrival. This prevents the situation where only the text image corresponding to the voice of the speaker who speaks frequently is displayed and the text image corresponding to the voice of the speaker who speaks less is not displayed. As a result, a user wearing the display device 1 can easily recognize the flow of conversations of a plurality of speakers.
  • an array microphone device having a plurality of microphones 101 may be configured separately from the display device 1 and connected to the display device 1 by wire or wirelessly.
  • the array microphone device and display device 1 may be directly connected, or may be connected via another device such as a PC or a cloud server.
  • the array microphone device and the display device 1 are configured separately, at least part of the functions of the display device 1 described above may be implemented in the array microphone device.
  • the array microphone apparatus performs the estimation of the direction of arrival in S111 and the extraction of the audio signal in S112 of the processing flow of FIG. You may send.
  • the display device 1 may then use the received information and audio signals to control the display of images, including text images.
  • the display device 1 is an optical see-through glass-type display device.
  • the format of the display device 1 is not limited to this.
  • the display device 1 may be a video see-through glass type display device. That is, the display device 1 may comprise a camera. Then, the display device 1 displays on the display 102 a synthesized image obtained by synthesizing the various display images described above, such as text images and symbol images generated based on voice recognition, and the captured image captured by the camera. may be displayed.
  • the captured image is an image captured in front of the user and may include an image of the speaker.
  • the controller 10 and the display 102 may be configured separately, such as the controller 10 existing in a cloud server.
  • the display device 1 may be a PC or a tablet terminal, and in that case, the display device 1 may display the above-described text image 903 and bird's-eye view map 1102 on the display of the PC or tablet terminal.
  • the bird's-eye view map 1102 may not display the area 1103 , and the upward direction of the bird's-eye view map 1102 corresponds to the reference direction of the microphone array including the multiple microphones 101 .
  • the user can confirm the content of the conversation picked up by the microphone 101 in the text image 903, and can also see in which direction the speaker of each text is located with respect to the reference direction of the microphone array. It can be easily recognized from the bird's-eye view map 1102 .
  • the predetermined text display area in which the text image 903 is displayed on the display 102 is the window 902
  • the predetermined text display area is not limited to this example, and may be any area determined regardless of the orientation of the display 102 .
  • the window 902 may not be displayed in the predetermined text display area.
  • the display format of the text image in the text display area is not limited to the example shown in FIG. 7 and the like. For example, utterances from different directions of arrival may be displayed in different portions of the text display area.
  • a user's instruction may be input from a drive button object presented by an application of a computer (for example, a smartphone) connected to the communication interface 14 .
  • the display 102 can be implemented by any method as long as it can present an image to the user.
  • the display 102 can be implemented by, for example, the following implementation method.
  • ⁇ HOE Holographic optical element
  • DOE diffractive optical element
  • an optical element as an example, a light guide plate
  • ⁇ Liquid crystal display ⁇ Retinal projection display
  • LED Light Emitting Diode
  • Organic EL Electro Luminescence
  • ⁇ Laser display ⁇ Optical element (for example, lens, mirror, diffraction grating, liquid crystal, MEMS mirror, HOE) 2.
  • any implementation method can be used as long as a voice signal corresponding to a specific speaker can be extracted.
  • the controller 10 may, for example, extract the audio signal by the following method.
  • Frost beamformer Adaptive filter beamforming generally sidelobe canceller as an example
  • ⁇ Speech extraction methods other than beamforming for example, frequency filter or machine learning
  • display device 10 controller 101: microphone 102: display

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Otolaryngology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

A display control device for controlling the display of a display device acquires sounds collected by a plurality of microphones, and estimates the arrival directions of the acquired sounds. The display control device displays text images corresponding to the acquired sounds in a predetermined text display region in a display part of the display device, and displays symbol images associated with the text images at display positions within the display part, the display positions corresponding to the estimated arrival directions.

Description

表示制御装置、表示制御方法、及びプログラムDisplay control device, display control method, and program
 本開示は、表示制御装置、表示制御方法、及びプログラムに関する。 The present disclosure relates to a display control device, a display control method, and a program.
 難聴者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような難聴者が、複数人での会話を行おうとする場合、誰が何を話しているかを正確に認識するのが難しく、コミュニケーションに支障が生じる。
 特許文献1には、難聴者による周囲音の認識を補助するためのヘッドマウントディスプレイ装置が開示されている。この装置は、複数のマイクを用いて周囲音に対して音声認識を行った結果を、文字情報として装着者の視野の一部に表示することで、装着者に周囲音を視覚的に認識させることを可能にする。
Hearing-impaired people may have a reduced ability to perceive the direction of arrival of sound due to a decline in auditory function. When such a hearing-impaired person tries to have a conversation with a plurality of people, it is difficult to accurately recognize who is speaking what, and communication is hindered.
Patent Literature 1 discloses a head-mounted display device for assisting hearing-impaired persons in recognizing ambient sounds. This device allows the wearer to visually recognize the surrounding sounds by displaying the results of speech recognition of ambient sounds using multiple microphones as text information in a part of the wearer's field of vision. make it possible.
特開2007-334149号公報JP 2007-334149 A
 音声に対応するテキスト画像を表示するディスプレイデバイスにおいて、ユーザにとって利便性の高い表示方法が求められる。例えば、ユーザの周辺で複数の人が会話している場合に、ユーザが発言の内容を認識できるだけでなく、その発言が誰の発言なのかを容易に認識できれば、ユーザを交えたコミュニケーションがより円滑になる。 For display devices that display text images corresponding to voice, a display method that is highly convenient for users is required. For example, when a plurality of people are having a conversation around a user, if the user can not only recognize the content of the utterance but also easily recognize who said the utterance, communication involving the user will be smoother. become.
 本開示の目的は、音声に対応するテキスト画像を表示するディスプレイデバイスにおいて、ユーザにとって利便性の高い表示方法を提供することである。 An object of the present disclosure is to provide a user-friendly display method for a display device that displays a text image corresponding to voice.
 本開示に係る表示制御装置は、例えば以下の構成を有する。すなわち、ディスプレイデバイスの表示を制御する表示制御装置であって、複数のマイクロホンにより集音された音声を取得する取得手段と、前記取得手段により取得された音声の到来方向を推定する推定手段と、前記ディスプレイデバイスの表示部における所定のテキスト表示領域に、前記取得手段により取得された音声に対応するテキスト画像を表示させ、且つ、前記表示部内の表示位置であって前記推定手段により推定された到来方向に応じた表示位置に、前記テキスト画像に関連付けられたシンボル画像を表示させる表示制御手段と、を有する表示制御装置。 A display control device according to the present disclosure has, for example, the following configuration. That is, a display control device for controlling the display of a display device, comprising acquisition means for acquiring sounds collected by a plurality of microphones, estimation means for estimating the direction of arrival of the sounds acquired by the acquisition means, displaying a text image corresponding to the voice acquired by the acquisition means in a predetermined text display area in the display section of the display device, and the arrival estimated by the estimation means at the display position in the display section; display control means for displaying a symbol image associated with the text image at a display position corresponding to a direction.
ディスプレイデバイスの構成例を示す図である。It is a figure which shows the structural example of a display device. ディスプレイデバイスの概要を示す図である。1 is a diagram showing an overview of a display device; FIG. ディスプレイデバイスの機能を示す図である。Fig. 3 shows the function of the display device; コントローラーの処理の一例を表すフローチャートである。4 is a flowchart showing an example of processing by a controller; マイクロホンによる集音を説明するための図である。FIG. 4 is a diagram for explaining sound collection by a microphone; 音の到来方向を説明するための図である。It is a figure for demonstrating the arrival direction of a sound. ディスプレイデバイスの表示の一例を示す図である。FIG. 4 is a diagram showing an example of a display on a display device; FIG. ディスプレイデバイスの表示の一例を示す図である。FIG. 4 is a diagram showing an example of a display on a display device; FIG. ディスプレイデバイスの表示の一例を示す図である。FIG. 4 is a diagram showing an example of a display on a display device; FIG. ディスプレイデバイスの表示の変化例を示す図である。FIG. 10 is a diagram showing an example of change in display on a display device; ディスプレイデバイスの表示の変化例を示す図である。FIG. 10 is a diagram showing an example of change in display on a display device; 音源とシンボルとを対応付けるテーブルの例を示す図である。FIG. 4 is a diagram showing an example of a table that associates sound sources with symbols;
 以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。 Hereinafter, one embodiment of the present invention will be described in detail based on the drawings. In the drawings for describing the embodiments, in principle, the same constituent elements are denoted by the same reference numerals, and repeated description thereof will be omitted.
(1)情報処理装置の構成
 本実施形態のディスプレイデバイス1の構成を説明する。図1は、本実施形態のディスプレイデバイスの構成例を示す図である。図2は、図1に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの概要を示す図である。
(1) Configuration of Information Processing Apparatus The configuration of the display device 1 of this embodiment will be described. FIG. 1 is a diagram showing a configuration example of a display device according to this embodiment. FIG. 2 is a diagram showing an outline of a glass-type display device, which is an example of the display device shown in FIG.
 図1に示されるディスプレイデバイス1は、音声を取得し、且つ、取得した音声に対応するテキスト画像を、その音声の到来方向を識別可能な態様で表示するように構成される。
 ディスプレイデバイス1の形態は、例えば、以下の少なくとも1つを含む。
 ・グラス型ディスプレイデバイス
 ・ヘッドマウントディスプレイ
 ・PC
 ・タブレット端末
The display device 1 shown in FIG. 1 is configured to acquire speech and display a text image corresponding to the acquired speech in a manner that allows the direction of arrival of the speech to be identified.
Forms of the display device 1 include, for example, at least one of the following.
・Glass type display device ・Head mounted display ・PC
·Tablet terminal
 図1に示されるように、ディスプレイデバイス1は、複数のマイクロホン101と、ディスプレイ102と、コントローラー10とを備える。
 各マイクロホン101は、互いに所定の位置関係を保つように配置される。
As shown in FIG. 1, the display device 1 comprises a plurality of microphones 101, a display 102 and a controller 10. As shown in FIG.
Each microphone 101 is arranged so as to maintain a predetermined positional relationship with each other.
 図2に示されるように、ディスプレイデバイス1がグラス型ディスプレイデバイスである場合、ディスプレイデバイス1は、右テンプル21と、右ヨロイ22と、ブリッジ23と、左ヨロイ24と、左テンプル25と、リム26と、を備え、ユーザが装着可能である。 As shown in FIG. 2, when the display device 1 is a glass-type display device, the display device 1 includes a right temple 21, a right end piece 22, a bridge 23, a left end piece 24, a left temple 25, a rim 26 and is wearable by the user.
 マイクロホン101-1は、右テンプル21に配置される。
 マイクロホン101-2は、右ヨロイ22に配置される。
 マイクロホン101-3は、ブリッジ23に配置される。
 マイクロホン101-4は、左ヨロイ24に配置される。
 マイクロホン101-5は、左テンプル25に配置される。
 ただし、ディスプレイデバイス1におけるマイクロホン101の数及び配置は図2の例に限定されない。
 マイクロホン101は、例えば、ディスプレイデバイス1の周辺の音を収音する。マイクロホン101により集音される音には、例えば以下の少なくとも1つの音声が含まれる。
 ・人物による発話音
 ・ディスプレイデバイス1が使用される環境の音(以下「環境音」という。)
A microphone 101 - 1 is arranged on the right temple 21 .
A microphone 101 - 2 is placed on the right end piece 22 .
A microphone 101 - 3 is placed on the bridge 23 .
A microphone 101 - 4 is placed on the left end piece 24 .
A microphone 101 - 5 is arranged on the left temple 25 .
However, the number and arrangement of the microphones 101 in the display device 1 are not limited to the example in FIG.
The microphone 101 picks up sounds around the display device 1, for example. Sounds collected by the microphone 101 include, for example, at least one of the following sounds.
・Sounds spoken by people ・Sounds of the environment where the display device 1 is used (hereinafter referred to as “environmental sounds”)
 ディスプレイデバイス1がグラス型ディスプレイデバイスである場合、ディスプレイ102は、透過性を有する部材(例えば、ガラス、プラスチック、及び、ハーフミラーの少なくとも1つ)である。この場合、ディスプレイ102は、グラス型ディスプレイデバイスを装着した使用者の視野内に配置される。 When the display device 1 is a glass-type display device, the display 102 is a transparent member (for example, at least one of glass, plastic, and half mirror). In this case, the display 102 is placed within the field of view of the user wearing the glass display device.
 ディスプレイ102-1~102-2は、リム26により支持される。ディスプレイ102-1は、使用者がディスプレイデバイス1を装着した際に使用者の右眼前に位置するように配置される。ディスプレイ102-2は、使用者がディスプレイデバイス1を装着した際に使用者の左眼前に位置するように配置される。 The displays 102-1 to 102-2 are supported by the rim 26. The display 102-1 is arranged so as to be positioned in front of the user's right eye when the user wears the display device 1. FIG. The display 102-2 is arranged so as to be positioned in front of the user's left eye when the user wears the display device 1. FIG.
 ディスプレイ102は、コントローラー10による制御に従い、画像を提示(例えば、表示)する。例えば、右テンプル21の裏側に配置される非図示の投影器からディスプレイ102-1へ画像が投影され、左テンプル25の裏側に配置される非図示の投影器からディスプレイ102-2へ画像が投影される。これにより、ディスプレイ102-1及びディスプレイ102―2は画像を提示する。使用者は、画像を視認すると同時に、ディスプレイ102-1及びディスプレイ102―2を透過した景色も視認することが可能である。 The display 102 presents (for example, displays) an image under the control of the controller 10. For example, a projector (not shown) placed behind the right temple 21 projects an image onto the display 102-1, and a projector (not shown) placed behind the left temple 25 projects an image onto the display 102-2. be done. Thereby, the display 102-1 and the display 102-2 present images. The user can visually recognize the scenery transmitted through the display 102-1 and the display 102-2 at the same time when viewing the image.
 なお、ディスプレイデバイス1が画像を提示する方法は上記の例に限定されない。例えば、ディスプレイデバイス1は、投影器から使用者の眼に画像を直接投影してもよい。 It should be noted that the method by which the display device 1 presents images is not limited to the above example. For example, the display device 1 may project images directly from a projector to the user's eyes.
 コントローラー10は、ディスプレイデバイス1を制御する情報処理装置である。コントローラー10は、有線又は無線でマイクロホン101、及びディスプレイ102と接続される。
 図2に示されるようにディスプレイデバイス1がグラス型ディスプレイデバイスである場合、コントローラー10は、例えば、右テンプル21の内側に配置される。ただし、コントローラー10の配置は図2の例に限定されず、例えばコントローラー10がディスプレイデバイス1と別体として構成されていてもよい。
The controller 10 is an information processing device that controls the display device 1 . The controller 10 is wired or wirelessly connected to the microphone 101 and the display 102 .
When the display device 1 is a glass-type display device as shown in FIG. 2, the controller 10 is arranged inside the right temple 21, for example. However, the arrangement of the controller 10 is not limited to the example in FIG. 2, and the controller 10 may be configured separately from the display device 1, for example.
 図1に示されるように、コントローラー10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14と、を備える。 As shown in FIG. 1, the controller 10 includes a storage device 11, a processor 12, an input/output interface 13, and a communication interface 14.
 記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。 The storage device 11 is configured to store programs and data. The storage device 11 is, for example, a combination of ROM (Read Only Memory), RAM (Random Access Memory), and storage (eg, flash memory or hard disk).
 プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
Programs include, for example, the following programs.
・OS (Operating System) program ・Application program that executes information processing
 データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
The data includes, for example, the following data.
・Databases referenced in information processing ・Data obtained by executing information processing (that is, execution results of information processing)
 プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、コントローラー10の機能を実現するように構成される。プロセッサ12は、コンピュータの一例である。例えば、プロセッサ12は、記憶装置11に記憶されたプログラムを起動することで、マイクロホン101で集音した発話音に対応するテキストを表す画像(以下「テキスト画像」という)をディスプレイ102の所定の位置へ提示する機能を実現する。なお、ディスプレイデバイス1がASICやFPGAなどの専用のハードウェアを有し、本実施形態において説明するプロセッサ12の処理の少なくとも一部が専用のハードウェアにより実行されてもよい。 The processor 12 is configured to implement the functions of the controller 10 by activating programs stored in the storage device 11 . Processor 12 is an example of a computer. For example, the processor 12 activates a program stored in the storage device 11 to display an image representing text (hereinafter referred to as a “text image”) corresponding to the speech sound collected by the microphone 101 at a predetermined position on the display 102 . Realize the function to be presented to. Note that the display device 1 may have dedicated hardware such as ASIC or FPGA, and at least part of the processing of the processor 12 described in this embodiment may be executed by the dedicated hardware.
 入出力インタフェース13は、以下の少なくとも1つを取得する。
 ・マイクロホン101で集音された音声信号
 ・コントローラー10に接続される入力デバイスから入力された使用者の指示
 入力デバイスは、例えば、駆動ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せである。
 また、入出力インタフェース13は、コントローラー10に接続される出力デバイスに情報を出力するように構成される。出力デバイスは、例えば、ディスプレイ102である。
The input/output interface 13 acquires at least one of the following.
・Audio signal collected by the microphone 101 ・User's instruction input from the input device connected to the controller 10 It's a combination of them.
Also, the input/output interface 13 is configured to output information to an output device connected to the controller 10 . An output device is, for example, the display 102 .
 通信インタフェース14は、ディスプレイデバイス1と図示されない外部装置(例えば、サーバ、又は携帯端末)との間の通信を制御するように構成される。 The communication interface 14 is configured to control communication between the display device 1 and an external device (eg, server or mobile terminal) not shown.
(2)機能の概要
 本実施形態におけるディスプレイデバイス1の機能の概要を説明する。図3は、ディスプレイデバイスの機能を示す図である。
(2) Overview of Functions An overview of the functions of the display device 1 in this embodiment will be described. FIG. 3 is a diagram showing the functions of the display device.
 図3において、ディスプレイデバイス1を装着する装着者P1は、話者P2~P4と会話をしている。
 マイクロホン101は、話者P2~P4の発話音を集音する。
 コントローラー10は、集音された発話音の到来方向を推定する。
 コントローラー10は、集音された発話音に対応する音声信号を解析することにより、発話音に対応するテキスト画像301を生成する。
 コントローラー10は、テキスト画像301を、そのテキスト画像に対応する発話音の到来方向を識別可能な態様で、ディスプレイ102-1~102-2に表示する。到来方向を識別可能な態様での表示の詳細については、図7~図9等を用いて後述する。
In FIG. 3, a wearer P1 who wears the display device 1 is having a conversation with speakers P2 to P4.
A microphone 101 picks up the uttered sounds of the speakers P2 to P4.
The controller 10 estimates the direction of arrival of the collected speech sound.
The controller 10 generates a text image 301 corresponding to the collected speech sound by analyzing an audio signal corresponding to the collected speech sound.
The controller 10 displays the text image 301 on the displays 102-1 to 102-2 in such a manner that the incoming direction of the speech sound corresponding to the text image can be identified. The details of the display in which the direction of arrival can be identified will be described later with reference to FIGS. 7 to 9 and the like.
(3)コントローラー10の処理
 図4は、コントローラー10の処理の一例を表すフローチャートである。図5は、マイクロホンによる集音を説明するための図である。図6は、音の到来方向を説明するための図である。
(3) Processing of Controller 10 FIG. 4 is a flowchart showing an example of processing of the controller 10 . FIG. 5 is a diagram for explaining sound collection by a microphone. FIG. 6 is a diagram for explaining the arrival direction of sound.
 複数のマイクロホン101は、話者から発せられる発話音をそれぞれ集音する。例えば、図2に示される例では、ディスプレイデバイス1の右テンプル21、右ヨロイ22、ブリッジ23、左ヨロイ24、及び左テンプル25にそれぞれマイクロホン101-1~101-5が配置されている。マイクロホン101-1~101-5は、図5に示されるパスを介して到来した発話音を集音する。マイクロホン101-1~101-5は、集音した発話音を音声信号へ変換する。 A plurality of microphones 101 each collects the speech sound emitted by the speaker. For example, in the example shown in FIG. 2, microphones 101-1 to 101-5 are arranged on the right temple 21, right end piece 22, bridge 23, left end piece 24, and left temple 25 of the display device 1, respectively. Microphones 101-1 to 101-5 collect speech sounds arriving via the paths shown in FIG. Microphones 101-1 to 101-5 convert collected speech sounds into audio signals.
 図4に示す処理は、ディスプレイデバイス1の電源がONになり初期設定が完了したタイミングで開始される。ただし、図4に示す処理の開始タイミングはこれに限定されない。
 コントローラー10は、マイクロホン101で変換された音声信号の取得(S110)を実行する。
The processing shown in FIG. 4 is started when the power of the display device 1 is turned on and the initial setting is completed. However, the start timing of the processing shown in FIG. 4 is not limited to this.
The controller 10 acquires the audio signal converted by the microphone 101 (S110).
 具体的には、プロセッサ12は、話者P2、P3、及びP4の少なくともいずれかから発せられた発話音を含む音声信号を、マイクロホン101-1~101-5から取得する。マイクロホン101-1~101-5から取得される音声信号には、発話音の音波が進行したパスに基づく空間的な情報(例えば周波数特性や遅延など)が含まれている。 Specifically, the processor 12 acquires from the microphones 101-1 to 101-5 audio signals including speech sounds uttered by at least one of the speakers P2, P3, and P4. The audio signals obtained from the microphones 101-1 to 101-5 contain spatial information (for example, frequency characteristics, delays, etc.) based on paths along which the sound waves of the speech sound travel.
 ステップS110の後、コントローラー10は、到来方向の推定(S111)を実行する。 After step S110, the controller 10 performs direction-of-arrival estimation (S111).
 記憶装置11には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。 A direction-of-arrival estimation model is stored in the storage device 11 . The direction-of-arrival estimation model describes information for identifying the correlation between the spatial information included in the speech signal and the direction of arrival of the speech sound.
 到来方向推定モデルを用いた到来方向推定手法としては、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法として、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)などが用いられる。 Any existing method may be used as a direction-of-arrival estimation method using the direction-of-arrival estimation model. For example, as a direction-of-arrival estimation method, MUSIC (Multiple Signal Classification) using eigenvalue expansion of the input correlation matrix, minimum norm method, or ESPRIT (Estimation of Signal Parameters via Rotational Invariance Techniques) is used.
 プロセッサ12は、記憶装置11に記憶されている到来方向推定モデルに、マイクロホン101-1~101-5から受信した音声信号を入力することで、マイクロホン101-1~101-5により集音された発話音の到来方向を推定する。このとき、プロセッサ12は、例えば、マイクロホン101-1~101-5を基準として定められた基準方向(本実施形態においては、ディスプレイデバイス1を装着したユーザの正面方向)を0度とする軸からの偏角で発話音の到来方向を表現する。図6に示される例では、プロセッサ12は、話者P2から発せられた発話音の到来方向を、軸から右方向に角度A1と推定する。プロセッサ12は、話者P3から発せられた発話音の到来方向を、軸から左方向に角度A2と推定する。プロセッサ12は、話者P4から発せられた発話音の到来方向を、軸から左方向に角度A3と推定する。 The processor 12 inputs the sound signals received from the microphones 101-1 to 101-5 to the direction-of-arrival estimation model stored in the storage device 11, so that the sounds collected by the microphones 101-1 to 101-5 are input. Estimate direction of arrival of speech sound. At this time, the processor 12, for example, sets the reference direction (in this embodiment, the front direction of the user wearing the display device 1) defined with reference to the microphones 101-1 to 101-5, from the axis with 0 degrees. The direction of arrival of the speech sound is expressed by the declination of . In the example shown in FIG. 6, the processor 12 estimates the incoming direction of the speech sound emitted by the speaker P2 as an angle A1 to the right from the axis. The processor 12 estimates the incoming direction of the speech sound emitted by the speaker P3 to be an angle A2 to the left from the axis. The processor 12 estimates the incoming direction of the speech sound emitted by the speaker P4 to be an angle A3 to the left from the axis.
 ステップS111の後、コントローラー10は、音声信号の抽出(S112)を実行する。 After step S111, the controller 10 executes audio signal extraction (S112).
 記憶装置11には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。 A beamforming model is stored in the storage device 11 . The beamforming model describes information for identifying a correlation between a predetermined direction and parameters for forming directivity having a beam in that direction. Here, forming the directivity is a process of amplifying or attenuating a sound coming from a specific direction of arrival.
 プロセッサ12は、記憶装置11に記憶されているビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。 The processor 12 inputs the estimated direction of arrival into the beamforming model stored in the storage device 11 to calculate parameters for forming directivity having a beam in the direction of arrival.
 図6に示される例では、プロセッサ12は、計算された角度A1をビームフォーミングモデルに入力し、軸から右方向に角度A1の方向へビームを有する指向性を形成するためのパラメータを計算する。プロセッサ12は、計算された角度A2をビームフォーミングモデルに入力し、軸から左方向に角度A2の方向へビームを有する指向性を形成するためのパラメータを計算する。プロセッサ12は、計算された角度A3をビームフォーミングモデルに入力し、軸から左方向に角度A3の方向へビームを有する指向性を形成するためのパラメータを計算する。 In the example shown in FIG. 6, the processor 12 inputs the calculated angle A1 into the beamforming model and calculates the parameters for forming the directivity with the beam in the direction of the angle A1 rightward from the axis. The processor 12 inputs the calculated angle A2 into the beamforming model and calculates the parameters for forming the directivity with the beam directed at the angle A2 to the left of the axis. The processor 12 inputs the calculated angle A3 into the beamforming model and calculates the parameters for forming the directivity with the beam directed at the angle A3 to the left of the axis.
 プロセッサ12は、マイクロホン101-1~101-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。プロセッサ12は、増幅又は減衰させた音声信号を合成することで、角度A1で表される方向から到来した発話音についての音声信号を抽出する。 The processor 12 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A1. The processor 12 extracts the audio signal for the speech sound coming from the direction represented by the angle A1 by synthesizing the amplified or attenuated audio signal.
 プロセッサ12は、マイクロホン101-1~101-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。プロセッサ12は、増幅又は減衰させた音声信号を合成することで、角度A2で表される方向から到来した発話音についての音声信号を抽出する。 The processor 12 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A2. The processor 12 extracts the audio signal for the speech sound coming from the direction represented by the angle A2 by synthesizing the amplified or attenuated audio signal.
 プロセッサ12は、マイクロホン101-1~101-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。プロセッサ12は、増幅又は減衰させた音声信号を合成することで、角度A3で表される方向から到来した発話音についての音声信号を抽出する。 The processor 12 amplifies or attenuates the audio signals acquired from the microphones 101-1 to 101-5 using the parameters calculated for the angle A3. The processor 12 extracts the audio signal for the speech sound coming from the direction represented by the angle A3 by synthesizing the amplified or attenuated audio signal.
 ステップS112の後、コントローラー10は、音声認識(S113)を実行する。 After step S112, the controller 10 executes speech recognition (S113).
 記憶装置11には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。 A speech recognition model is stored in the storage device 11. A speech recognition model describes information for identifying a speech signal and the correlation of text to the speech signal. A speech recognition model is, for example, a trained model generated by machine learning.
 プロセッサ12は、記憶装置11に記憶されている音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。 The processor 12 inputs the extracted speech signal to the speech recognition model stored in the storage device 11 to determine the text corresponding to the input speech signal.
 図6に示される例では、プロセッサ12は、角度A1~A3について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。 In the example shown in FIG. 6, the processor 12 inputs the speech signals extracted for the angles A1 to A3 to the speech recognition model respectively, thereby determining the text corresponding to the input speech signals.
 ステップS113の後、コントローラー10は、テキスト画像生成(S114)を実行する。 After step S113, the controller 10 executes text image generation (S114).
 具体的には、プロセッサ12は、決定したテキストを表すテキスト画像を生成する。 Specifically, the processor 12 generates a text image representing the determined text.
 ステップS114の後、コントローラー10は、表示態様の決定(S115)を実行する。 After step S114, the controller 10 determines the display mode (S115).
 具体的には、プロセッサ12は、ディスプレイ102にテキスト画像を含む表示画像をどのような態様で表示するかを決定する。 Specifically, the processor 12 determines in what manner the display image including the text image is to be displayed on the display 102 .
 ステップS115の後、コントローラー10は、画像表示(S116)を実行する。 After step S115, the controller 10 executes image display (S116).
 具体的には、プロセッサ12は、決定された表示態様に応じた表示画像を、ディスプレイ102に表示する。 Specifically, the processor 12 displays on the display 102 a display image according to the determined display mode.
(4)ディスプレイデバイスの表示例
 以下では、ステップS115における表示態様の決定に応じた表示画像の例を詳細に説明する。プロセッサ12は、ディスプレイデバイス1の表示部であるディスプレイ102における所定のテキスト表示領域に、音声に対応するテキスト画像を表示させる。併せて、プロセッサ12は、当該テキスト画像に対応する発話音の到来方向に応じた表示位置に、当該テキスト画像に関連付けられたシンボル画像を表示させる。
(4) Display example of display device Below, an example of a display image according to the determination of the display mode in step S115 will be described in detail. The processor 12 causes the text image corresponding to the voice to be displayed in a predetermined text display area on the display 102 which is the display unit of the display device 1 . At the same time, the processor 12 displays the symbol image associated with the text image at the display position corresponding to the direction of arrival of the speech sound corresponding to the text image.
 図7は、ディスプレイデバイスの表示の一例を示す図である。画面901は、ディスプレイデバイス1を装着するユーザがディスプレイ102を介して見ている視界を表している。ここで、話者P3及び話者P4の像は、ディスプレイ102を透過してユーザの目に映っている実像であり、ウィンドウ902、シンボル905、シンボル906、及びマーク907は、ディスプレイ102に表示された画像である。なお、ディスプレイ102-1を介して見る視界とディスプレイ102-2を介して見る視界とは、実際には互いに像の位置が少し異なるが、ここでは説明を単純化するために、各視界が共通の画面901で表されるものとして説明する。 FIG. 7 is a diagram showing an example of display on a display device. A screen 901 represents the field of view seen through the display 102 by the user wearing the display device 1 . Here, the images of speaker P3 and speaker P4 are real images seen by the user through display 102, and window 902, symbol 905, symbol 906, and mark 907 are displayed on display 102. This is an image. Note that the field of view seen through the display 102-1 and the field of view seen through the display 102-2 are actually slightly different in image position, but for simplicity of explanation here, each field of view is common. will be described as being represented by the screen 901 of .
 ウィンドウ902は、画面901内の所定の位置に表示される。ウィンドウ902には、S114で生成されたテキスト画像903が表示される。テキスト画像903は、複数の話者の発言を識別可能な態様で表示される。例えば、話者P3の発言に続いて話者P4の発言が発生した場合、それぞれの発言に対応するテキストは別の行に分かれて表示される。ウィンドウ902内に表示されるテキストの行が増えると、テキスト画像903がスクロール表示され、古い発言のテキストは非表示になって新しい発言のテキストが表示される。 A window 902 is displayed at a predetermined position within the screen 901 . A window 902 displays a text image 903 generated in S114. The text image 903 is displayed in a manner in which the utterances of multiple speakers can be identified. For example, if speaker P3's utterance is followed by speaker P4's utterance, the text corresponding to each utterance is displayed in separate lines. As more lines of text are displayed in window 902, text image 903 is scrolled, hiding the text of older utterances and displaying the text of newer utterances.
 また、ウィンドウ902には、テキスト画像903に含まれる各テキストが誰の発言を表すのかを識別可能にするためのシンボル904が表示される。音源とシンボル種別とは、例えば、図12に示すテーブル1000により対応付けられる。コントローラー10は、記憶装置11に記憶されたテーブル1000を参照して、ウィンドウ902に表示させるシンボルの種別を決定する。図7の例では、話者P3の発言に対応するテキストの隣にはハート型のシンボルが表示されており、話者P4の発言に対応するテキストの隣には顔型のシンボルが表示されている。 Also, in the window 902, a symbol 904 is displayed to make it possible to identify whose statement each text included in the text image 903 represents. Sound sources and symbol types are associated, for example, by a table 1000 shown in FIG. The controller 10 refers to the table 1000 stored in the storage device 11 to determine the types of symbols to be displayed on the window 902 . In the example of FIG. 7, a heart-shaped symbol is displayed next to the text corresponding to the utterance of speaker P3, and a face-shaped symbol is displayed next to the text corresponding to the utterance of speaker P4. there is
 そして、画面901において、話者P3が発する音声の到来方向に応じた位置(図7の例では到来方向に存在する話者P3の像と重なる位置)にハート型のシンボル905が表示される。また、話者P4が発する音声の到来方向に応じた位置(図7の例では到来方向に存在する話者P4の像と重なる位置)に顔型のシンボル906が表示されている。シンボル905及びシンボル906の種別は、ウィンドウ902においてテキスト画像903と共に表示されたシンボル904の種別と対応している。すなわち、ウィンドウ902において話者P3の発言を表すテキストと共に表示されるシンボル904は、画面901において話者P3に対応する位置に表示されるシンボル905と同種のシンボルである。このような表示により、ユーザは、ウィンドウ902内のテキスト画像903に含まれるテキストがそれぞれ誰の発言を表すのかを容易に識別できる。なお、コントローラー10は、シンボルの種別をS113における音声認識の結果に基づいて決定してもよい。例えば、コントローラー10は、S113において音声認識により話者の感情を推定し、推定された感情に基づいて当該話者に対応するシンボルの表情や色を決定してもよい。これにより、話者の感情に関する情報をディスプレイデバイス1のユーザに提示することができる。 Then, on screen 901, a heart-shaped symbol 905 is displayed at a position corresponding to the direction of arrival of the voice uttered by speaker P3 (in the example of FIG. 7, a position overlapping the image of speaker P3 existing in the direction of arrival). Also, a face-shaped symbol 906 is displayed at a position corresponding to the direction of arrival of the voice uttered by speaker P4 (in the example of FIG. 7, the position overlapping the image of speaker P4 existing in the direction of arrival). The types of symbols 905 and 906 correspond to the types of symbol 904 displayed together with text image 903 in window 902 . That is, the symbol 904 displayed together with the text representing the utterance of the speaker P3 in the window 902 is the same kind of symbol as the symbol 905 displayed at the position corresponding to the speaker P3 on the screen 901 . With such a display, the user can easily identify whose utterance each text included in the text image 903 in the window 902 represents. Note that the controller 10 may determine the symbol type based on the voice recognition result in S113. For example, the controller 10 may estimate the emotion of the speaker by speech recognition in S113, and determine the expression and color of the symbol corresponding to the speaker based on the estimated emotion. This makes it possible to present information about the speaker's emotions to the user of the display device 1 .
 さらに、画面901において、シンボル906の周辺には、シンボル906に対応する話者P4が発言中であることを示すマーク907が表示されている。すなわち、マーク907は、音声の到来方向に応じた位置に表示され、その到来方向に位置する音源から音が発せられていることを表す。 Furthermore, on the screen 901, a mark 907 is displayed around the symbol 906 to indicate that the speaker P4 corresponding to the symbol 906 is speaking. That is, the mark 907 is displayed at a position corresponding to the arrival direction of the sound, and indicates that the sound is emitted from the sound source located in the arrival direction.
 なお、プロセッサ12は、複数の話者の発言の識別を、音声の到来方向の推定結果に基づいて行う。すなわち、ある発言に対応する音声の到来方向と別の発言に対応する音声の到来方向との差が所定の角度以上である場合に、プロセッサ12は、それらの発言が別々の話者の発言(つまり別々の音源から発せられた音声)であると判断する。そしてプロセッサ12は、到来方向が異なる複数の発言に対応するテキストを識別可能なようにテキスト画像903を表示させ、各テキストに関連付けられたシンボル905及びシンボル906を音声の到来方向に応じた位置に表示させる。 Note that the processor 12 identifies the utterances of a plurality of speakers based on the result of estimating the direction of arrival of the voice. That is, when the difference between the direction of arrival of the voice corresponding to one utterance and the direction of arrival of the voice corresponding to another utterance is greater than or equal to a predetermined angle, the processor 12 detects that the utterances are utterances of different speakers ( In other words, it is determined that the sound is a sound emitted from a separate sound source). Then, the processor 12 displays the text images 903 so that the texts corresponding to a plurality of utterances with different directions of arrival can be identified, and the symbols 905 and 906 associated with each text are positioned according to the direction of arrival of the voice. display.
 なお、図7の例では、話者P3の発言を表すテキスト画像903と、話者P3から発せられた音声の到来方向を示すシンボル905とは、シンボル905と同種のシンボル904がテキスト画像903の近傍に表示されることにより関連付けられるものとした。ただし、特定の話者の発言を表すテキスト画像と当該話者から発された音声の到来方向を示すシンボル画像とを関連付ける方法はこの例に限定されない。例えば、テキスト画像903において、互いに到来方向が異なる発言に対応するテキストが、異なる色で表示されてもよい。そして、特定の到来方向の音声に対応するテキスト画像とその到来方向を示すシンボル画像とが、同種の色で表示されることにより関連付けられてもよい。具体的には、話者P3の発言に対応するテキストが第1の色で表示され、第1の色のシンボルが話者P3の方向を示す位置に表示されてもよい。そして、話者P4の発言に対応するテキストが第2の色で表示され、第2の色のシンボルが話者P4の方向を示す位置に表示されてもよい。第1の色のシンボルと第2の色のシンボルの形状は、異なっていてもよいし、同一形状であってもよい。 In the example of FIG. 7, the text image 903 representing the utterance of the speaker P3 and the symbol 905 representing the arrival direction of the voice uttered by the speaker P3 are the same type of symbol 904 as the text image 903. It is assumed that they are related by being displayed in the vicinity. However, the method of associating a text image representing an utterance of a specific speaker with a symbol image representing the direction of arrival of the voice uttered by the speaker is not limited to this example. For example, in the text image 903, texts corresponding to statements with different arrival directions may be displayed in different colors. Then, the text image corresponding to the sound in a specific direction of arrival and the symbol image indicating the direction of arrival may be associated by being displayed in the same kind of color. Specifically, the text corresponding to the utterance of speaker P3 may be displayed in a first color, and a symbol of the first color may be displayed at a position indicating the direction of speaker P3. Then, the text corresponding to the utterance of speaker P4 may be displayed in a second color, and a symbol of the second color may be displayed at a position indicating the direction of speaker P4. The symbols of the first color and the symbols of the second color may have different shapes or may have the same shape.
 図8は、ディスプレイデバイスの表示の他の一例を示す図である。画面901には、図7の例と同様に話者P3と話者P4の像が含まれており、ウィンドウ902とテキスト画像903が表示されている。一方、図7におけるシンボル904、シンボル905、及びシンボル906の代わりに、方向マーク1004、シンボル1005、及びシンボル1006が表示されている。 FIG. 8 is a diagram showing another example of display on the display device. A screen 901 includes images of speakers P3 and P4 as in the example of FIG. 7, and a window 902 and a text image 903 are displayed. On the other hand, instead of symbols 904, 905 and 906 in FIG. 7, direction marks 1004, 1005 and 1006 are displayed.
 シンボル1005及びシンボル1006は、音声の到来方向、すなわち話者の位置を示している。シンボル1005とシンボル1006とは互いに異なる話者に対応付けられているが、同種のシンボルであってもよい。方向マーク1004は、テキスト画像903に含まれる各テキストに対応する音源の方向を示している。図8の例では、ユーザの正面方向(すなわち画面901の法線方向)に対して音源が右に位置するか左に位置するかが、矢印により表されている。具体的には、ユーザの正面より右に位置する話者P3の発言に対応するテキストの隣には右方向の矢印が表示され、ユーザの正面より左に位置する話者P4の発言に対応するテキストの隣には左方向の矢印が表示される。このように、特定の到来方向からの音声に対応するテキストの近傍に、画面901内のシンボル1005及びシンボル1006のうちその到来方向に対応するシンボルを特定可能な記号又は図形が表示されることで、テキスト画像とシンボル画像とが関連付けられる。このような表示により、ユーザは、ウィンドウ902内のテキスト画像903に含まれるテキストが、それぞれどの方向に位置する音源からの音声を表すのかを容易に識別できる。 Symbols 1005 and 1006 indicate the direction of arrival of the voice, that is, the position of the speaker. Symbols 1005 and 1006 are associated with different speakers, but may be symbols of the same type. A direction mark 1004 indicates the direction of the sound source corresponding to each text included in the text image 903 . In the example of FIG. 8, arrows indicate whether the sound source is positioned to the right or left with respect to the front direction of the user (that is, the normal direction of the screen 901). Specifically, a rightward arrow is displayed next to the text corresponding to the utterances of the speaker P3 located to the right of the user's front, and corresponds to the utterances of the speaker P4 located to the left of the user's front. An arrow pointing left appears next to the text. In this way, by displaying a symbol or graphic capable of specifying the symbol corresponding to the direction of arrival from among the symbols 1005 and 1006 on the screen 901 near the text corresponding to the sound from the specific direction of arrival, , a text image and a symbol image are associated. With such a display, the user can easily identify in which direction the text included in the text image 903 in the window 902 represents the sound from the sound source located in each direction.
 なお、方向マーク1004は右方向と左方向を示す2種類に限定されず、より多様な方向を示すマークであってもよい。これにより、話者が3人以上いる場合であっても、どのテキストがどの話者の発言を表すのかを識別可能となる。また、方向マーク1004が示す方向は、ユーザの正面方向を基準とした音源の位置により決まるものに限定されず、例えば、複数の音源の相対位置に基づいて決まってもよい。例えば、ユーザの正面より右側に2人の話者が位置する場合に、相対的に右に位置する話者の発言に対応するテキストの隣には右方向の矢印が表示され、相対的に左に位置する話者の発言に対応するテキストの隣には左方向の矢印が表示されてもよい。 It should be noted that the direction mark 1004 is not limited to two types indicating the right direction and the left direction, and may be a mark indicating more various directions. This makes it possible to identify which text represents which speaker's utterances even when there are three or more speakers. Also, the direction indicated by the direction mark 1004 is not limited to being determined by the position of the sound source relative to the front direction of the user, and may be determined based on the relative positions of a plurality of sound sources, for example. For example, if two speakers are positioned to the right of the user, a rightward arrow is displayed next to the text corresponding to the utterance of the speaker positioned relatively to the right, A left arrow may be displayed next to the text corresponding to the speaker's utterance located at .
 図9は、ディスプレイデバイスの表示の他の一例を示す図である。図9(a)は、話者P3及び話者P4が、ディスプレイデバイス1を装着するユーザの視界から右に外れた位置に存在する場合における画面901を表している。図9(b)は、話者P3がユーザの視界から右に外れた位置に存在し、話者P4がユーザの視界内に存在する場合における画面901を表している。すなわち、図9(a)の画面901を見ているユーザが少し右を向くと、図9(b)の画面901が見えることとなる。 FIG. 9 is a diagram showing another example of display on the display device. FIG. 9(a) shows a screen 901 when the speaker P3 and the speaker P4 are positioned to the right out of the field of view of the user wearing the display device 1. FIG. FIG. 9(b) shows the screen 901 when the speaker P3 is out of the user's field of view to the right and the speaker P4 is within the user's field of view. That is, when the user viewing the screen 901 of FIG. 9A turns slightly to the right, the screen 901 of FIG. 9B can be seen.
 図9(a)において、画面901には、音声に対応するテキストを表すウィンドウ902に加えて、ディスプレイデバイス1のFOV(Field of View)に対する音源の方向を示す方向指示枠1101と、FOVと音源の方向との関係を示す俯瞰マップ1102とが表示される。FOVは、ディスプレイデバイス1に予め設定された角度範囲であり、ディスプレイデバイス1の基準方向(装着者の正面方向)を中心に、仰角方向及び方位角方向にそれぞれ所定の幅を有する。ディスプレイデバイス1のFOVは、ディスプレイデバイス1を介してユーザが見ている視界に含まれる。 In FIG. 9A, screen 901 includes, in addition to window 902 representing text corresponding to speech, direction indicator frame 1101 indicating the direction of a sound source with respect to the FOV (Field of View) of display device 1, FOV and sound source A bird's-eye view map 1102 showing the relationship with the direction of is displayed. The FOV is an angle range preset for the display device 1, and has a predetermined width in each of the elevation direction and the azimuth direction centering on the reference direction of the display device 1 (the front direction of the wearer). The FOV of the display device 1 is included in the field of view seen by the user through the display device 1 .
 方向指示枠1101には、FOVに対する音源の方向を示す矢印と、矢印が示す方向に存在する音源を識別するシンボルとが表示される。図9(a)の例ではFOVより右方向に音源が存在するため、画面901における右端部分に方向指示枠1101が表示されているが、FOVより左方向に音源が存在する場合には、画面901における左端部分に方向指示枠1101が表示される。すなわち、方向指示枠1101は、画面901の端部のうち音声の到来方向に対応する端部に表示される。このように、テキスト画像903に関連付けられたシンボル画像が音声の到来方向に応じた位置に表示される。これにより、ユーザは、ウィンドウ902内に表示されたテキストに対応する音声が、ディスプレイデバイス1を介して見えている視野に対してどの方向に存在する音源から発せられているかを容易に認識できる。 An arrow indicating the direction of the sound source with respect to the FOV and a symbol identifying the sound source existing in the direction indicated by the arrow are displayed in the direction indication frame 1101 . In the example of FIG. 9A, since the sound source exists to the right of the FOV, a direction indicator frame 1101 is displayed on the right end of the screen 901. However, if the sound source exists to the left of the FOV, the screen A direction indicator frame 1101 is displayed at the left end of 901 . That is, the direction indication frame 1101 is displayed at the end of the screen 901 corresponding to the incoming direction of the sound. In this way, the symbol image associated with the text image 903 is displayed at a position corresponding to the incoming direction of the voice. This allows the user to easily recognize in which direction the sound source of the text displayed in the window 902 is emitted from the sound source with respect to the field of view seen through the display device 1 .
 図9(b)に示すように、話者P4がFOV外からFOV内に入ると、話者P4に対応するシンボルは方向指示枠1101に表示されなくなる。 As shown in FIG. 9(b), when the speaker P4 enters the FOV from outside the FOV, the symbol corresponding to the speaker P4 is no longer displayed in the direction indicator frame 1101.
 なお、方向指示枠1101の表示位置は画面901の端に限定されない。また、方向指示枠1101内に表示される内容は、シンボルと矢印に限定されず、これらの少なくともいずれかが方向指示枠1101に含まれていなくてもよいし、他の図形または記号が方向指示枠1101に含まれていてもよい。方向指示枠1101に矢印などの方向を示す記号又は図形が含まれる場合、方向指示枠1101は音源の方向に依存しない位置に表示されてもよい。 Note that the display position of the direction indicator frame 1101 is not limited to the edge of the screen 901 . Further, the contents displayed in the direction indication frame 1101 are not limited to symbols and arrows, and at least one of these may not be included in the direction indication frame 1101, and other figures or symbols may indicate direction indications. It may be included in the frame 1101 . If the direction indication frame 1101 includes a symbol or figure indicating a direction such as an arrow, the direction indication frame 1101 may be displayed at a position that does not depend on the direction of the sound source.
 俯瞰マップ1102には、ディスプレイデバイス1のFOVを示すエリア1103と、音源の方向を表すシンボルとが表示される。エリア1103は俯瞰マップ1102上の固定位置に表示され、テキスト画像903に関連付けられたシンボルは俯瞰マップ1102内において音源の方向を表す位置(すなわち音声の到来方向に応じた位置)に表示される。このような俯瞰マップ1102が表示されることにより、ユーザは、ウィンドウ902内に表示されたテキストに対応する音声が、ディスプレイデバイス1を介して見えている視野に対してどの方向に存在する音源から発せられているかを容易に認識できる。なお、俯瞰マップ1102に表示されるエリア1103は、ディスプレイデバイス1のFOVと厳密に一致していなくてもよい。例えば、エリア1103は、ディスプレイデバイス1を装着したユーザの視野に含まれる範囲を表していてもよい。また例えば、俯瞰マップ1102において、FOVの代わりにディスプレイデバイス1の基準方向(装着者の正面方向)が示されていてもよい。 An area 1103 indicating the FOV of the display device 1 and a symbol indicating the direction of the sound source are displayed on the bird's-eye view map 1102 . The area 1103 is displayed at a fixed position on the bird's eye map 1102, and the symbol associated with the text image 903 is displayed on the bird's eye map 1102 at a position indicating the direction of the sound source (that is, a position corresponding to the direction of arrival of the sound). By displaying such a bird's-eye view map 1102 , the user can see from which direction the sound corresponding to the text displayed in the window 902 is coming from the sound source with respect to the visual field seen through the display device 1 . You can easily recognize what is being said. Note that the area 1103 displayed on the bird's-eye view map 1102 does not have to strictly match the FOV of the display device 1 . For example, area 1103 may represent the range included in the field of view of a user wearing display device 1 . Further, for example, the bird's-eye view map 1102 may indicate the reference direction of the display device 1 (the front direction of the wearer) instead of the FOV.
 図9(b)に示すように、話者P4がFOV内に入ると、俯瞰マップ1102において話者P4に対応するシンボルはエリア1103と重なる位置に表示される。 As shown in FIG. 9B, when the speaker P4 enters the FOV, the symbol corresponding to the speaker P4 is displayed at a position overlapping the area 1103 on the bird's-eye view map 1102 .
(5)小括
 本実施形態によれば、コントローラー10は、ディスプレイデバイス1の表示部における所定のテキスト表示領域に、マイクロホン101を介して取得した音声に対応するテキスト画像903を表示させる。併せて、コントローラー10は、当該表示部内の表示位置であって推定された音声の到来方向に応じた表示位置に、当該テキスト画像903に関連付けられたシンボル画像を表示させる。これにより、ディスプレイデバイス1のユーザは、ユーザの周辺で行われている会話の内容を視覚的に認識できるとともに、会話に含まれる各発言が誰の発言なのかを容易に認識することができる。
(5) Summary According to the present embodiment, the controller 10 causes the text image 903 corresponding to the voice acquired via the microphone 101 to be displayed in a predetermined text display area on the display section of the display device 1 . At the same time, the controller 10 displays the symbol image associated with the text image 903 at a display position within the display unit corresponding to the estimated arrival direction of the sound. As a result, the user of the display device 1 can visually recognize the content of the conversation taking place around the user, and can easily recognize whose utterances are included in the conversation.
 また、本実施形態によれば、音声に対応するテキスト画像が、音源の位置によらず所定のテキスト表示領域にまとめて表示されるため、ユーザはテキスト画像を目で追いやすくなる。さらに、音源がユーザの視野外に存在する場合であっても、ユーザはその音源の方向を向くことなく、その音源から発せられた発言の内容を認識することができる。 Also, according to this embodiment, the text images corresponding to the voice are collectively displayed in a predetermined text display area regardless of the position of the sound source, so the user can easily follow the text images. Furthermore, even if the sound source is out of the user's field of view, the user can recognize the content of the utterance uttered by the sound source without facing the direction of the sound source.
 また、本実施形態によれば、コントローラー10は、ディスプレイデバイス1を装着したユーザの視野に含まれる範囲と音源の方向との関係を示す情報を表示部内に表示させる。これにより、ユーザは、視野外で会話が行われている場合や視野外から呼びかけられた場合に、その発言者がどの方向にいるのかを容易に認識することができる。その結果、会話への参加や呼びかけへの対応を迅速に行うことができる。 Further, according to the present embodiment, the controller 10 causes the display unit to display information indicating the relationship between the range included in the visual field of the user wearing the display device 1 and the direction of the sound source. Thereby, the user can easily recognize in which direction the speaker is when a conversation is taking place outside the field of view or when the user is called out from the outside of the field of view. As a result, it is possible to quickly participate in conversations and respond to calls.
 また、本実施形態によれば、コントローラー10は、ディスプレイデバイス1の表示部内の位置であって推定された音声の到来方向に応じた位置に、当該到来方向に位置する音源から音が発せられていることを表すマークを表示させる。これにより、ユーザは、音声認識によるテキスト表示が完了する前であっても、発言中の人物を容易に識別することができる。 Further, according to the present embodiment, the controller 10 causes the sound to be emitted from a sound source located in the estimated direction of arrival of the sound at a position within the display section of the display device 1 that corresponds to the estimated direction of arrival of the sound. display a mark indicating that This allows the user to easily identify the speaking person even before text display by voice recognition is completed.
(6)変形例
 本実施形態の変形例について説明する。
(6) Modification A modification of the present embodiment will be described.
(6.1)変形例1
 本実施形態の変形例1について説明する。変形例1では、コントローラー10が、ディスプレイデバイス1の表示部であるディスプレイ102に同時に表示されるテキスト画像のセンテンスの総数を制限する。ここでセンテンスとは、連続した単一の集音期間において集音された、同一の到来方向の音声に対応するテキストのまとまりである。コントローラー10は、マイクロホン101を介して取得した音声のうち到来方向が異なる音声に対応するテキストを、別々のセンテンスとして区別して表示させる。また、コントローラー10は、マイクロホン101を介して取得した音声のうち所定時間より長い無音期間を挟んで集音された音声に対応するテキストを、別々のセンテンスとして区別して表示させる。
(6.1) Modification 1
Modification 1 of the present embodiment will be described. In Modification 1, the controller 10 limits the total number of text image sentences displayed simultaneously on the display 102 that is the display unit of the display device 1 . Here, a sentence is a set of texts corresponding to speech from the same direction of arrival, collected in a single continuous sound collection period. The controller 10 distinguishes and displays the texts corresponding to the sounds with different arrival directions among the sounds acquired through the microphone 101 as separate sentences. In addition, the controller 10 distinguishes and displays texts corresponding to voices collected through a silence period longer than a predetermined time from among the voices acquired through the microphone 101 as separate sentences.
 図10(a)から図10(d)は、ディスプレイデバイスの表示の変化例を示す。本例では、コントローラー10が、ディスプレイ102に同時に表示されるテキスト画像のセンテンスの総数の上限を3に設定しているものとする。 FIGS. 10(a) to 10(d) show examples of changes in the display of the display device. In this example, it is assumed that the controller 10 has set the upper limit of the total number of sentences of the text image displayed on the display 102 to 3 at the same time.
 ディスプレイデバイス1を装着したユーザの視界内において話者P5と話者P6が会話している状況において、まず話者P6が「Hello」と発言した場合、図10(a)に示すように、その発言に対応するセンテンス1201がディスプレイ102に表示される。この時点で表示されているセンテンスの総数は1である。 In a situation where a speaker P5 and a speaker P6 are having a conversation within the field of view of a user wearing the display device 1, when the speaker P6 first says "Hello", as shown in FIG. A sentence 1201 corresponding to the utterance is displayed on the display 102 . The total number of sentences displayed at this point is one.
 次に、話者P5が「こんにちは」と発言した場合、図10(b)に示すように、その発言に対応するセンテンス1202がディスプレイ102に表示される。この時点で表示されているセンテンスの総数は2である。 Next, when speaker P5 says "Hello," a sentence 1202 corresponding to that statement is displayed on the display 102, as shown in FIG. 10(b). The total number of sentences displayed at this point is two.
 次に、話者P5が「今日は」と発言した場合、図10(c)に示すように、その発言に対応するセンテンス1203がディスプレイ102に表示される。この時点で表示されているセンテンスの総数は3である。 Next, when speaker P5 says "today", a sentence 1203 corresponding to that statement is displayed on display 102, as shown in FIG. 10(c). The total number of sentences displayed at this point is three.
 次に、話者P5が「いい天気」と発言した場合、図10(d)に示すように、その発言に対応するセンテンス1204がディスプレイ102に表示される。ここで、同時に表示されるセンテンスの総数の上限が3に制限されているため、ディスプレイ102に表示されている複数のセンテンスのうち最も古い発言に対応するセンテンス1201が非表示になる。 Next, when speaker P5 says "nice weather", a sentence 1204 corresponding to that statement is displayed on display 102, as shown in FIG. 10(d). Here, since the upper limit of the total number of sentences displayed simultaneously is limited to 3, the sentence 1201 corresponding to the oldest utterance among the plurality of sentences displayed on the display 102 is hidden.
 このように、ディスプレイ102に同時に表示されるテキスト画像のセンテンスの総数が制限されることで、ディスプレイ102においてテキスト画像が表示される領域が大きくなりすぎることを防ぐことができる。その結果、ディスプレイデバイス1を装着したユーザは、表示されたテキスト画像と、ディスプレイ102を透過して目に映る実在する物体の像(例えば発言者の表情)との、両方を視認しながら円滑なコミュニケーションを行うことが可能となる。 By limiting the total number of text image sentences displayed simultaneously on the display 102 in this way, it is possible to prevent the area in which the text images are displayed on the display 102 from becoming too large. As a result, the user wearing the display device 1 can see both the displayed text image and the image of the real object (for example, the speaker's facial expression) seen through the display 102 and smoothly It becomes possible to communicate.
 なお、図10に示す例では、ある到来方向の音声(話者P5の音声)に対応するセンテンスのテキスト画像と他の到来方向の音声(話者P6の音声)に対応するセンテンスのテキスト画像とが、互いに異なる位置に表示されることで、識別可能に表示されている。ただし、表示方法はこれに限定されない。例えば、上述した実施形態のように、所定のテキスト表示領域に表示されたテキスト画像とともに、テキスト画像に関連付けられたシンボル画像が表示されることで、複数の異なる到来方向に対応する複数のセンテンスが識別可能に表示されてもよい。また、図10及び図11では、センテンスが吹き出しで表現されているが、図7から図9を用いて説明した方法で表現することも可能である。 Note that, in the example shown in FIG. 10, a text image of a sentence corresponding to a certain direction of arrival (speech of speaker P5) and a text image of a sentence corresponding to speech of another direction of arrival (speech of speaker P6) are shown. are displayed so as to be identifiable by being displayed at positions different from each other. However, the display method is not limited to this. For example, as in the above-described embodiment, a text image displayed in a predetermined text display area and a symbol image associated with the text image are displayed, thereby displaying a plurality of sentences corresponding to a plurality of different arrival directions. It may be displayed so as to be identifiable. Also, in FIGS. 10 and 11, sentences are represented by balloons, but they can also be represented by the method described with reference to FIGS. 7 to 9. FIG.
 また、図10に示す例では、表示されるセンテンスの数が上限を超えた場合、いずれかのセンテンスが非表示になるものとした。しかしこれに限らず、コントローラー10は、表示されるセンテンスの数が上限を超えた場合、いずれかのセンテンスの表示を目立ちにくくする処理を行ってもよい。例えば、コントローラー10は、上限を超えたセンテンスの明るさ、彩度、及びコントラストの少なくとも1つを低下させたり、いずれかのセンテンスのサイズを縮小させたりしてもよい。 Also, in the example shown in FIG. 10, when the number of displayed sentences exceeds the upper limit, one of the sentences is hidden. However, the present invention is not limited to this, and when the number of displayed sentences exceeds the upper limit, the controller 10 may perform processing to make the display of any sentence less conspicuous. For example, the controller 10 may reduce at least one of brightness, saturation, and contrast of sentences exceeding the upper limit, or reduce the size of any sentence.
 また、ディスプレイ102に表示されたセンテンスは、表示されているセンテンスの総数が上限に達した場合に限らず、所定時間の経過により非表示になってもよい。 In addition, the sentences displayed on the display 102 may be hidden after a predetermined period of time has elapsed, not only when the total number of displayed sentences reaches the upper limit.
(6.2)変形例2
 本実施形態の変形例2について説明する。変形例2では、コントローラー10が、ディスプレイデバイス1の表示部であるディスプレイ102に同時に表示されるテキスト画像のセンテンスの数を、推定された到来方向ごとに制限する。
(6.2) Modification 2
Modification 2 of this embodiment will be described. In Modified Example 2, the controller 10 limits the number of sentences of the text image simultaneously displayed on the display 102, which is the display unit of the display device 1, for each estimated direction of arrival.
 図11(a)から図11(d)は、ディスプレイデバイスの表示の変化例を示す。本例では、コントローラー10が、ディスプレイ102に同時に表示される到来方向ごとのセンテンスの数の上限を2に設定しているものとする。 FIGS. 11(a) to 11(d) show examples of changes in the display of the display device. In this example, it is assumed that the controller 10 sets the upper limit of the number of sentences displayed simultaneously on the display 102 to two for each direction of arrival.
 ディスプレイデバイス1を装着したユーザの視界内において話者P5と話者P6が会話している状況において、まず話者P6が「Hello」と発言した場合、図11(a)に示すように、その発言に対応するセンテンス1201がディスプレイ102に表示される。この時点では、話者P5の方向に対応する表示センテンスの数は0であり、話者P6の方向に対応する表示センテンスの数は1である。 In a situation where a speaker P5 and a speaker P6 are having a conversation within the field of view of a user wearing the display device 1, when the speaker P6 first says "Hello", as shown in FIG. A sentence 1201 corresponding to the utterance is displayed on the display 102 . At this point, the number of displayed sentences corresponding to the direction of speaker P5 is zero, and the number of displayed sentences corresponding to the direction of speaker P6 is one.
 次に、話者P5が「こんにちは」と発言した場合、図11(b)に示すように、その発言に対応するセンテンス1202がディスプレイ102に表示される。この時点では、話者P5の方向に対応する表示センテンスの数は1であり、話者P6の方向に対応する表示センテンスの数は1である。 Next, when the speaker P5 says "Hello", a sentence 1202 corresponding to that utterance is displayed on the display 102 as shown in FIG. 11(b). At this point, the number of displayed sentences corresponding to the direction of speaker P5 is one, and the number of displayed sentences corresponding to the direction of speaker P6 is one.
 次に、話者P5が「今日は」と発言した場合、図11(c)に示すように、その発言に対応するセンテンス1203がディスプレイ102に表示される。この時点では、話者P5の方向に対応する表示センテンスの数は2であり、話者P6の方向に対応する表示センテンスの数は1である。 Next, when the speaker P5 says "today", the sentence 1203 corresponding to that statement is displayed on the display 102 as shown in FIG. 11(c). At this point, the number of displayed sentences corresponding to the direction of speaker P5 is two, and the number of displayed sentences corresponding to the direction of speaker P6 is one.
 次に、話者P5が「いい天気」と発言した場合、図11(d)に示すように、その発言に対応するセンテンス1204がディスプレイ102に表示される。ここで、同時に表示される到来方向ごとのセンテンスの数の上限が2に制限されているため、ディスプレイ102に表示されている話者P5の方向に対応する複数のセンテンスのうち最も古い発言に対応するセンテンス1202が非表示になる。 Next, when speaker P5 says "nice weather", a sentence 1204 corresponding to that statement is displayed on display 102, as shown in FIG. 11(d). Here, since the upper limit of the number of sentences displayed simultaneously for each direction of arrival is limited to 2, the oldest utterance among the plurality of sentences corresponding to the direction of speaker P5 displayed on the display 102 is displayed. Sentence 1202 is hidden.
 このように、ディスプレイ102に同時に表示されるテキスト画像のセンテンスの数が到来方向ごとに制限される。これにより、発言の多い話者の音声に対応するテキスト画像だけが表示されて発言の少ない話者の音声に対応するテキスト画像が表示されないことを防げる。その結果、ディスプレイデバイス1を装着したユーザは、複数の話者の会話の流れを容易に認識することが可能となる。 In this way, the number of text image sentences displayed simultaneously on the display 102 is limited for each direction of arrival. This prevents the situation where only the text image corresponding to the voice of the speaker who speaks frequently is displayed and the text image corresponding to the voice of the speaker who speaks less is not displayed. As a result, a user wearing the display device 1 can easily recognize the flow of conversations of a plurality of speakers.
(6.3)その他の変形例
 上述した実施形態では、複数のマイクロホン101がディスプレイデバイス1と一体となって構成されている場合を中心に説明した。ただしこれに限らず、複数のマイクロホン101を有するアレイマイク装置がディスプレイデバイス1とは別体として構成され、有線又は無線でディスプレイデバイス1と接続されていてもよい。この場合、アレイマイク装置とディスプレイデバイス1は直接接続されてもよいし、PCやクラウドサーバなどの他の装置を介して接続されてもよい。
(6.3) Other Modifications In the above-described embodiment, the case where the plurality of microphones 101 are integrated with the display device 1 has been mainly described. However, not limited to this, an array microphone device having a plurality of microphones 101 may be configured separately from the display device 1 and connected to the display device 1 by wire or wirelessly. In this case, the array microphone device and display device 1 may be directly connected, or may be connected via another device such as a PC or a cloud server.
 また、アレイマイク装置とディスプレイデバイス1とが別体として構成される場合、上述したディスプレイデバイス1の機能の少なくとも一部がアレイマイク装置に実装されていてもよい。例えば、アレイマイク装置が、図4の処理フローのS111における到来方向の推定と、S112における音声信号の抽出とを実行し、推定した到来方向を示す情報と抽出した音声信号とをディスプレイデバイス1へ送信してもよい。そしてディスプレイデバイス1が、受信した情報と音声信号とを用いて、テキスト画像を含む画像の表示を制御してもよい。 Further, when the array microphone device and the display device 1 are configured separately, at least part of the functions of the display device 1 described above may be implemented in the array microphone device. For example, the array microphone apparatus performs the estimation of the direction of arrival in S111 and the extraction of the audio signal in S112 of the processing flow of FIG. You may send. The display device 1 may then use the received information and audio signals to control the display of images, including text images.
 上述した実施形態では、ディスプレイデバイス1が光学シースルー型のグラス型ディスプレイデバイスである場合を中心に説明した。ただし、ディスプレイデバイス1の形式はこれに限定されない。例えば、ディスプレイデバイス1はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス1はカメラを備えてもよい。そしてディスプレイデバイス1は、音声認識に基づいて生成したテキスト画像やシンボル画像などの上述した各種の表示画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、ディスプレイ102に表示させてもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また例えば、コントローラー10がクラウドサーバ内に存在するなど、コントローラー10とディスプレイ102とが別体として構成されていてもよい。 In the above-described embodiment, the case where the display device 1 is an optical see-through glass-type display device has been mainly described. However, the format of the display device 1 is not limited to this. For example, the display device 1 may be a video see-through glass type display device. That is, the display device 1 may comprise a camera. Then, the display device 1 displays on the display 102 a synthesized image obtained by synthesizing the various display images described above, such as text images and symbol images generated based on voice recognition, and the captured image captured by the camera. may be displayed. The captured image is an image captured in front of the user and may include an image of the speaker. Further, for example, the controller 10 and the display 102 may be configured separately, such as the controller 10 existing in a cloud server.
 また、ディスプレイデバイス1はPC又はタブレット端末でもよく、その場合、ディスプレイデバイス1はPC又はタブレット端末のディスプレイに、上述したテキスト画像903と俯瞰マップ1102とを表示させてもよい。この場合の俯瞰マップ1102にはエリア1103が表示されなくてもよく、俯瞰マップ1102の上方向は複数のマイクロホン101を備えるマイクアレイの基準方向に対応する。このような構成によれば、ユーザは、マイクロホン101が集音した会話の内容をテキスト画像903で確認できるとともに、各テキストの発言者がマイクアレイの基準方向に対してどの方向に存在するかを俯瞰マップ1102により容易に認識することができる。 Also, the display device 1 may be a PC or a tablet terminal, and in that case, the display device 1 may display the above-described text image 903 and bird's-eye view map 1102 on the display of the PC or tablet terminal. In this case, the bird's-eye view map 1102 may not display the area 1103 , and the upward direction of the bird's-eye view map 1102 corresponds to the reference direction of the microphone array including the multiple microphones 101 . With such a configuration, the user can confirm the content of the conversation picked up by the microphone 101 in the text image 903, and can also see in which direction the speaker of each text is located with respect to the reference direction of the microphone array. It can be easily recognized from the bird's-eye view map 1102 .
 図7等を用いて説明した実施形態では、ディスプレイ102においてテキスト画像903が表示される所定のテキスト表示領域が、ウィンドウ902である場合を中心に説明した。ただし、所定のテキスト表示領域はこの例に限定されず、ディスプレイ102の向きによらずに決まる領域であればよい。所定のテキスト表示領域にはウィンドウ902が表示されなくてもよい。また、テキスト表示領域におけるテキスト画像の表示形式は図7等の例に限定されない。例えば、複数の異なる到来方向からの発言がテキスト表示領域内のそれぞれ異なる部分に表示されてもよい。 In the embodiment described with reference to FIG. 7 and the like, the case where the predetermined text display area in which the text image 903 is displayed on the display 102 is the window 902 has been mainly described. However, the predetermined text display area is not limited to this example, and may be any area determined regardless of the orientation of the display 102 . The window 902 may not be displayed in the predetermined text display area. Also, the display format of the text image in the text display area is not limited to the example shown in FIG. 7 and the like. For example, utterances from different directions of arrival may be displayed in different portions of the text display area.
 上述した実施形態では、入出力インタフェース13に接続される入力デバイスから使用者の指示が入力される例を説明したが、これに限らない。通信インタフェース14に接続されるコンピュータ(例えば、スマートフォン)のアプリケーションによって提示される駆動ボタンオブジェクトから使用者の指示が入力されてもよい。 In the above-described embodiment, an example in which a user's instruction is input from an input device connected to the input/output interface 13 has been described, but the present invention is not limited to this. A user's instruction may be input from a drive button object presented by an application of a computer (for example, a smartphone) connected to the communication interface 14 .
 ディスプレイ102は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ102は、例えば、以下の実現方法により実現可能である。
 ・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
 ・液晶ディスプレイ
 ・網膜投影ディスプレイ
 ・LED(Light Emitting Diode)ディスプレイ
 ・有機EL(Electro Luminescence)ディスプレイ
 ・レーザディスプレイ
 ・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
 特に、網膜投影ディスプレイには、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
The display 102 can be implemented by any method as long as it can present an image to the user. The display 102 can be implemented by, for example, the following implementation method.
・HOE (Holographic optical element) or DOE (Diffractive optical element) using an optical element (as an example, a light guide plate)
・Liquid crystal display ・Retinal projection display ・LED (Light Emitting Diode) display ・Organic EL (Electro Luminescence) display ・Laser display ・Optical element (for example, lens, mirror, diffraction grating, liquid crystal, MEMS mirror, HOE) 2. Display that Guides Light Emitted from a Light-Emitting Body In particular, in a retinal projection display, even a person with weak eyesight can easily observe an image. Therefore, a person suffering from both hearing loss and amblyopia can more easily recognize the incoming direction of the speech sound.
 コントローラー10による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。コントローラー10は、例えば、以下の方法により音声信号を抽出してもよい。
 ・Frostビームフォーマ
 ・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
 ・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
In the voice extraction process by the controller 10, any implementation method can be used as long as a voice signal corresponding to a specific speaker can be extracted. The controller 10 may, for example, extract the audio signal by the following method.
Frost beamformer Adaptive filter beamforming (generalized sidelobe canceller as an example)
・Speech extraction methods other than beamforming (for example, frequency filter or machine learning)
 以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。 Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited to the above embodiments. Also, the above embodiments can be modified and modified in various ways without departing from the gist of the present invention. Also, the above embodiments and modifications can be combined.
1     :ディスプレイデバイス
10    :コントローラー
101   :マイクロホン
102   :ディスプレイ
1: display device 10: controller 101: microphone 102: display

Claims (17)

  1.  ディスプレイデバイスの表示を制御する表示制御装置であって、
     複数のマイクロホンにより集音された音声を取得する取得手段と、
     前記取得手段により取得された音声の到来方向を推定する推定手段と、
     前記ディスプレイデバイスの表示部における所定のテキスト表示領域に、前記取得手段により取得された音声に対応するテキスト画像を表示させ、且つ、前記表示部内の表示位置であって前記推定手段により推定された到来方向に応じた表示位置に、前記テキスト画像に関連付けられたシンボル画像を表示させる表示制御手段と、
     を有する表示制御装置。
    A display control device for controlling display of a display device,
    Acquisition means for acquiring sounds collected by a plurality of microphones;
    estimating means for estimating the direction of arrival of the sound acquired by the acquiring means;
    displaying a text image corresponding to the voice acquired by the acquisition means in a predetermined text display area in the display section of the display device, and the arrival estimated by the estimation means at the display position in the display section; display control means for displaying a symbol image associated with the text image at a display position corresponding to a direction;
    A display controller having a
  2.  前記テキスト画像と前記シンボル画像とは、前記シンボル画像と同種の画像が前記テキスト画像の近傍に表示されることにより関連付けられる、請求項1に記載の表示制御装置。 The display control device according to claim 1, wherein the text image and the symbol image are associated by displaying an image of the same type as the symbol image near the text image.
  3.  前記テキスト画像と前記シンボル画像とは、同種の色で表示されることにより関連付けられる、請求項1に記載の表示制御装置。 The display control device according to claim 1, wherein the text image and the symbol image are associated by being displayed in the same kind of color.
  4.  前記テキスト画像と前記シンボル画像とは、前記表示部内の複数のシンボル画像のうち前記シンボル画像を特定可能な記号又は図形が前記テキスト画像の近傍に表示されることにより関連付けられる、請求項1に記載の表示制御装置。 2. The text image and the symbol image according to claim 1, wherein the text image and the symbol image are associated by displaying a symbol or a figure capable of identifying the symbol image among the plurality of symbol images in the display section near the text image. display controller.
  5.  前記到来方向に応じた表示位置は、前記表示部において前記到来方向に存在する音源の像と重なる位置である、請求項1から請求項4の何れか1項に記載の表示制御装置。 The display control device according to any one of claims 1 to 4, wherein the display position corresponding to the direction of arrival is a position overlapping an image of a sound source existing in the direction of arrival on the display unit.
  6.  前記到来方向に応じた表示位置は、前記表示部の端部のうち前記到来方向に対応する端部である、請求項1から請求項4の何れか1項に記載の表示制御装置。 The display control device according to any one of claims 1 to 4, wherein the display position corresponding to the arrival direction is an end portion corresponding to the arrival direction among the end portions of the display section.
  7.  前記到来方向に応じた表示位置は、前記ディスプレイデバイスを装着したユーザの視野に含まれる範囲と音源の方向との関係を示すマップ上において音源の方向を表す位置である、請求項1から請求項4の何れか1項に記載の表示制御装置。 The display position corresponding to the direction of arrival is a position representing the direction of the sound source on a map showing the relationship between the range included in the visual field of the user wearing the display device and the direction of the sound source. 5. The display control device according to any one of 4.
  8.  前記表示制御手段は、さらに、前記表示部内の位置であって前記推定手段により推定された到来方向に応じた位置に、当該到来方向に位置する音源から音が発せられていることを表すマークを表示させる、請求項1から請求項7の何れか1項に記載の表示制御装置。 The display control means further places a mark indicating that a sound source located in the direction of arrival is emitting a sound at a position within the display section corresponding to the direction of arrival estimated by the estimation means. 8. The display control device according to any one of claims 1 to 7, for displaying.
  9.  前記所定のテキスト表示領域に表示されるテキスト画像は、前記取得手段により取得された音声から特定の方向の音声を抽出して音声認識を行うことで得られるテキストを表す画像である、請求項1から請求項8の何れか1項に記載の表示制御装置。 2. The text image displayed in the predetermined text display area is an image representing text obtained by performing speech recognition by extracting speech in a specific direction from the speech obtained by the obtaining means. 9. The display control device according to claim 8.
  10.  ディスプレイデバイスの表示を制御する表示制御装置であって、
     複数のマイクロホンにより集音された音声を取得する取得手段と、
     前記取得手段により取得された音声の到来方向を推定する推定手段と、
     前記ディスプレイデバイスの表示部において、第1の到来方向の音声に対応するテキスト画像と、前記第1の到来方向とは異なる第2の到来方向の音声に対応するテキスト画像とを、識別可能に表示させる表示制御手段と、
     前記表示制御手段により前記表示部に同時に表示されるテキスト画像のセンテンスの総数を制限する制限手段と、
     を有する表示制御装置。
    A display control device for controlling display of a display device,
    Acquisition means for acquiring sounds collected by a plurality of microphones;
    estimating means for estimating the direction of arrival of the sound acquired by the acquiring means;
    A display unit of the display device displays a text image corresponding to a sound in a first direction of arrival and a text image corresponding to a sound in a second direction of arrival different from the first direction of arrival in a distinguishable manner. a display control means for
    limiting means for limiting the total number of text image sentences simultaneously displayed on the display unit by the display control means;
    A display controller having a
  11.  ディスプレイデバイスの表示を制御する表示制御装置であって、
     複数のマイクロホンにより集音された音声を取得する取得手段と、
     前記取得手段により取得された音声の到来方向を推定する推定手段と、
     前記ディスプレイデバイスの表示部において、第1の到来方向の音声に対応するテキスト画像と、前記第1の到来方向とは異なる第2の到来方向の音声に対応するテキスト画像とを、識別可能に表示させる表示制御手段と、
     前記表示制御手段により前記表示部に同時に表示されるテキスト画像のセンテンスの数を、前記推定手段により推定された到来方向ごとに制限する制限手段と、
     を有する表示制御装置。
    A display control device for controlling display of a display device,
    Acquisition means for acquiring sounds collected by a plurality of microphones;
    estimating means for estimating the direction of arrival of the sound acquired by the acquiring means;
    A display unit of the display device displays a text image corresponding to a sound in a first direction of arrival and a text image corresponding to a sound in a second direction of arrival different from the first direction of arrival in a distinguishable manner. a display control means for
    limiting means for limiting the number of text image sentences simultaneously displayed on the display unit by the display control means for each direction of arrival estimated by the estimation means;
    A display controller having a
  12.  前記センテンスは、連続した単一の集音期間において集音された、同一の到来方向の音声に対応するテキストのまとまりである、請求項10又は請求項11に記載の表示制御装置。 The display control device according to claim 10 or 11, wherein the sentence is a group of texts corresponding to voices from the same direction of arrival collected in a single continuous sound collection period.
  13.  前記ディスプレイデバイスは、ユーザが装着可能なグラス型ディスプレイデバイスである、請求項1から請求項12の何れか1項に記載の表示制御装置。 The display control device according to any one of claims 1 to 12, wherein the display device is a user-worn glass-type display device.
  14.  コンピュータに、請求項1から請求項13の何れか1項に記載の表示制御装置の各手段を実現させるためのプログラム。 A program for causing a computer to implement each means of the display control device according to any one of claims 1 to 13.
  15.  ディスプレイデバイスの表示を制御する表示制御方法であって、
     複数のマイクロホンにより集音された音声を取得し、
     前記取得された音声の到来方向を推定し、
     前記ディスプレイデバイスの表示部における所定のテキスト表示領域に、前記取得された音声に対応するテキスト画像を表示させ、且つ、前記表示部内の表示位置であって前記推定された到来方向に応じた表示位置に、前記テキスト画像に関連付けられたシンボル画像を表示させる、
     表示制御方法。
    A display control method for controlling display of a display device, comprising:
    Acquire the sound collected by multiple microphones,
    estimating a direction of arrival of the acquired speech;
    displaying a text image corresponding to the acquired speech in a predetermined text display area in the display unit of the display device, and a display position within the display unit corresponding to the estimated direction of arrival; to display a symbol image associated with the text image;
    Display control method.
  16.  ディスプレイデバイスの表示を制御する表示制御方法であって、
     複数のマイクロホンにより集音された音声を取得し、
     前記取得された音声の到来方向を推定し、
     前記ディスプレイデバイスの表示部において、第1の到来方向の音声に対応するテキスト画像と、前記第1の到来方向とは異なる第2の到来方向の音声に対応するテキスト画像とを、識別可能に表示させ、
     前記表示部に同時に表示されるテキスト画像のセンテンスの総数を制限する、
     表示制御方法。
    A display control method for controlling display of a display device, comprising:
    Acquire the sound collected by multiple microphones,
    estimating a direction of arrival of the acquired speech;
    A display unit of the display device displays a text image corresponding to a sound in a first direction of arrival and a text image corresponding to a sound in a second direction of arrival different from the first direction of arrival in a distinguishable manner. let
    limiting the total number of text image sentences simultaneously displayed on the display;
    Display control method.
  17.  ディスプレイデバイスの表示を制御する表示制御方法であって、
     複数のマイクロホンにより集音された音声を取得し、
     前記取得された音声の到来方向を推定し、
     前記ディスプレイデバイスの表示部において、第1の到来方向の音声に対応するテキスト画像と、前記第1の到来方向とは異なる第2の到来方向の音声に対応するテキスト画像とを、識別可能に表示させ、
     前記表示部に同時に表示されるテキスト画像のセンテンスの数を、前記推定された到来方向ごとに制限する、
     表示制御方法。

     
    A display control method for controlling display of a display device, comprising:
    Acquire the sound collected by multiple microphones,
    estimating a direction of arrival of the acquired speech;
    A display unit of the display device displays a text image corresponding to a sound in a first direction of arrival and a text image corresponding to a sound in a second direction of arrival different from the first direction of arrival in a distinguishable manner. let
    limiting the number of text image sentences simultaneously displayed on the display unit for each of the estimated directions of arrival;
    Display control method.

PCT/JP2022/024487 2021-06-21 2022-06-20 Display control device, display control method, and program WO2022270456A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023530455A JPWO2022270456A1 (en) 2021-06-21 2022-06-20
US18/545,187 US20240119684A1 (en) 2021-06-21 2023-12-19 Display control apparatus, display control method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-102247 2021-06-21
JP2021102247 2021-06-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/545,187 Continuation US20240119684A1 (en) 2021-06-21 2023-12-19 Display control apparatus, display control method, and program

Publications (1)

Publication Number Publication Date
WO2022270456A1 true WO2022270456A1 (en) 2022-12-29

Family

ID=84545678

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/024487 WO2022270456A1 (en) 2021-06-21 2022-06-20 Display control device, display control method, and program

Country Status (3)

Country Link
US (1) US20240119684A1 (en)
JP (1) JPWO2022270456A1 (en)
WO (1) WO2022270456A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192048A (en) * 2010-03-15 2011-09-29 Nec Corp Speech content output system, speech content output device, and speech content output method
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
JP2015072415A (en) * 2013-10-04 2015-04-16 セイコーエプソン株式会社 Display device, head-mounted display device, display device control method, and head-mounted display device control method
WO2018105373A1 (en) * 2016-12-05 2018-06-14 ソニー株式会社 Information processing device, information processing method, and information processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192048A (en) * 2010-03-15 2011-09-29 Nec Corp Speech content output system, speech content output device, and speech content output method
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
JP2015072415A (en) * 2013-10-04 2015-04-16 セイコーエプソン株式会社 Display device, head-mounted display device, display device control method, and head-mounted display device control method
WO2018105373A1 (en) * 2016-12-05 2018-06-14 ソニー株式会社 Information processing device, information processing method, and information processing system

Also Published As

Publication number Publication date
JPWO2022270456A1 (en) 2022-12-29
US20240119684A1 (en) 2024-04-11

Similar Documents

Publication Publication Date Title
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
US10114610B2 (en) Display device, method of controlling display device, and program
US20170277257A1 (en) Gaze-based sound selection
CN108957761B (en) Display device and control method thereof, head-mounted display device and control method thereof
US11068668B2 (en) Natural language translation in augmented reality(AR)
US20160313973A1 (en) Display device, control method for display device, and computer program
JP5666219B2 (en) Glasses-type display device and translation system
US20230045237A1 (en) Wearable apparatus for active substitution
JP6155622B2 (en) Display device, head-mounted display device, display device control method, and head-mounted display device control method
US20170303052A1 (en) Wearable auditory feedback device
US20140236594A1 (en) Assistive device for converting an audio signal into a visual representation
US20220066207A1 (en) Method and head-mounted unit for assisting a user
JP2016033757A (en) Display device, method for controlling display device, and program
JP6364735B2 (en) Display device, head-mounted display device, display device control method, and head-mounted display device control method
WO2021230180A1 (en) Information processing device, display device, presentation method, and program
CN116134838A (en) Audio system using personalized sound profile
WO2022270456A1 (en) Display control device, display control method, and program
CN112751582A (en) Wearable device for interaction, interaction method and equipment, and storage medium
JP2017037212A (en) Voice recognizer, control method and computer program
WO2022270455A1 (en) Display control device, display control method, and program
JP2023108945A (en) Information processing device, information processing method, and program
WO2023249073A1 (en) Information processing device, display device, information processing method, and program
JP2014192769A (en) Image display device and image display program
JP7252313B2 (en) Head-mounted information processing device
JP2024027122A (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22828373

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023530455

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22828373

Country of ref document: EP

Kind code of ref document: A1