WO2016075781A1 - ウェアラブルデバイス、表示制御方法、及び表示制御プログラム - Google Patents

ウェアラブルデバイス、表示制御方法、及び表示制御プログラム Download PDF

Info

Publication number
WO2016075781A1
WO2016075781A1 PCT/JP2014/079999 JP2014079999W WO2016075781A1 WO 2016075781 A1 WO2016075781 A1 WO 2016075781A1 JP 2014079999 W JP2014079999 W JP 2014079999W WO 2016075781 A1 WO2016075781 A1 WO 2016075781A1
Authority
WO
WIPO (PCT)
Prior art keywords
display
voice
predetermined
information
sound
Prior art date
Application number
PCT/JP2014/079999
Other languages
English (en)
French (fr)
Inventor
麻実子 手島
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to EP14905668.1A priority Critical patent/EP3220372B1/en
Priority to PCT/JP2014/079999 priority patent/WO2016075781A1/ja
Priority to JP2016558498A priority patent/JP6555272B2/ja
Publication of WO2016075781A1 publication Critical patent/WO2016075781A1/ja
Priority to US15/589,144 priority patent/US20170243600A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Definitions

  • the disclosed technology relates to a wearable device, a display control method, and a display control program.
  • a wearable device for example, a head-mounted display that is worn on the head and projects an image output from the display device onto a half mirror provided in the spectacles unit so that the image is superimposed on a view that falls within the field of view. Is disclosed.
  • wearable devices are worn on the body, they can be used in various situations in daily life without being aware of their existence. Moreover, since the operation method according to a mounting position is also taken in for the operation of the wearable device, the wearable device is an apparatus suitable as a communication tool for persons with disabilities who have some kind of disabilities.
  • the disclosed technique aims to provide an apparatus for suppressing the complexity of display caused by voice other than a predetermined calling phrase.
  • a wearable device of the disclosed technology includes a microphone and a display.
  • the wearable device analyzes the sound information collected by the microphone, and when the acquired sound information detects that the sound corresponding to the predetermined call phrase is included, displays the call occurrence on the display.
  • the control part which controls is provided.
  • the disclosed technology can provide a device for suppressing the complexity of display caused by voice other than a predetermined calling phrase.
  • FIG. 1 It is a figure which shows an example of the device which concerns on 1st Embodiment. It is a functional block diagram which illustrates the function of the device concerning a 1st embodiment. It is a figure which shows an example of the icon which shows a human voice. It is a figure which shows an example of the icon which shows the sound of a door chime. It is a figure which shows an example of the icon which shows a ringtone. It is a figure which shows an example of the icon which shows the sound of a siren. It is a figure which shows an example of the icon which shows the horn of a vehicle. It is a figure which shows an example of the icon which shows the sound of thunder.
  • FIG. 18 is a diagram illustrating an example of a configuration when an information processing apparatus is realized by a computer.
  • FIG. 1 is a diagram illustrating an example of a wearable device according to the first embodiment.
  • the wearable device 10 is a spectacle-type terminal imitating the shape of spectacles, and includes a processing device 20, a microphone 22, and a projector 24.
  • the wearable device 10 may be simply referred to as the device 10.
  • the microphones 22 are built in, for example, both the left and right temples 18 of the device 10 and collect sound around the device 10.
  • an omnidirectional microphone is used for each of the microphones 22 so that sound generated in all directions can be collected.
  • the omnidirectional microphone may also be referred to as an omnidirectional microphone.
  • the projector 24 is incorporated in each part of the frame of the device 10 that is positioned above the left and right transparent members (for example, lenses) 19 and displays an image.
  • the projector 24 includes red, green, and blue semiconductor lasers and mirrors.
  • the projector 24 reflects the laser light emitted from each of the three primary color semiconductor lasers with a mirror, and each laser light is transmitted through the pupil to the retina.
  • the image is displayed by scanning in a two-dimensional manner.
  • the intensity of the laser beam used in the projector 24 is about 150 nW, which is an intensity satisfying the class 1 condition in JIS (International Organization for Standardization) C 6802 which defines “Radiation Safety Standards for Laser Products”.
  • Class 1 in JIS C 6802 is a safety standard that satisfies the condition that the retina will not be damaged even if the laser beam is continuously viewed for 100 seconds without blinking, and no special safety measures are required for the laser beam irradiation. It has become a level.
  • the transmissive display is, for example, a transparent display provided so as to be superimposed on the transparent member 19, and has a structure capable of displaying an image of the display so as to be superimposed on the scenery beyond the display.
  • a display using liquid crystal or organic EL (Electroluminescence) is known.
  • the projector 24 may be a retinal projection type.
  • the retinal projection type a laser element is arranged for each pixel, and an image is projected onto the retina by irradiating the retina with laser light from each laser element corresponding to the pixel in the image to be displayed through the pupil. It is a method to do.
  • a transmissive display may be used instead of the projector 24. Since the projector 24 irradiates the user's retina with a laser and displays an image at a position on the user's field of view, the display of the disclosed technique can include the user's retina.
  • the processing device 20 is built in, for example, the temple 18 of the device 10 and executes sound collection processing by the microphone 22 and display processing by the projector 24.
  • 1 shows an example in which the processing device 20 is built in the temple 18 on the left side of the device 10.
  • the processing device 20 is divided into a plurality of devices 10. You may make it arrange
  • FIG. 2 is a functional block diagram showing functions of the device 10 according to the first embodiment shown in FIG.
  • the device 10 includes an input unit 26, an output unit 28, and a control unit 30.
  • the input unit 26 receives an electric signal representing the sound collected by the plurality of microphones 22. Then, the input unit 26 amplifies each input electric signal, converts it into a digital audio signal, and outputs it to the control unit 30. At this time, the input unit 26 outputs the audio signal to the control unit 30 without intentionally delaying.
  • a digital audio signal representing audio is simply referred to as an audio signal.
  • the control unit 30 controls the input unit 26 to instruct the sampling timing of the audio signal.
  • the control unit 30 includes, for example, a sound source position specifying unit 32 and a voice recognition unit 34.
  • the control unit 30 uses the audio signal notified from the input unit 26 to specify the sound generation direction and the type of audio represented by the audio signal. Identify Furthermore, when the voice type is a human voice, the control unit 30 analyzes what words are uttered from the voice signal, and executes processing for converting the utterance contents into characters. And the control part 30 controls the output part 28 mentioned later, and displays the information showing the kind of audio
  • the sound source position specifying unit 32 specifies a sound generation direction based on the device 10 based on a plurality of sound signals. Specifically, the sound source position specifying unit 32 determines the incident direction of the sound based on the difference in the input timing of the audio signal input from each of the two microphones 22 incorporated in the device 10 or the difference in the size of the audio signal. Calculate and specify the direction of sound generation.
  • the sound source position specifying unit 32 will be described assuming that the sound incident direction is calculated from the difference in the input timing of the audio signal input from each of the two microphones 22 built in the device 10.
  • the sound source position specifying unit 32 outputs a voice signal to the voice recognition unit 34, requests the voice recognition unit 34 to analyze the type of speech and the content of the utterance, and acquires the analysis result from the voice recognition unit 34.
  • the voice recognition unit 34 uses the voice signal input from the sound source position specifying unit 32 to analyze the type of voice and the content of the utterance.
  • the type of voice is information indicating what kind of voice is uttered, and represents a specific type such as a human voice, a running sound of a vehicle, and a ringing sound of an interphone.
  • control unit 30 displays an icon indicating the type of speech identified by the speech recognition unit 34 and an utterance content at a position corresponding to the sound generation direction identified by the sound source location identifying unit 32 in the display area of the projector 24.
  • the output unit 28 is controlled to display at least one.
  • the output unit 28 uses the projector 24 to display at least one of the specified icon and utterance content at the position specified by the control unit 30.
  • FIG. 3A to 3I show an example of an icon (also referred to as a pictogram) indicating the type of voice identified by the voice recognition unit 34.
  • FIG. 3A is a human voice
  • FIG. 3B is a door chime sound
  • FIG. 3C is a ringtone for a mobile phone
  • FIG. 3D is a siren
  • FIG. 3E is a vehicle horn
  • FIG. 3F is a thunder
  • FIG. 3G is a vehicle running sound.
  • FIG. 3H is an example of an icon (alert mark) representing a sound that requires some attention emitted from the user's blind spot
  • FIG. 3I is an example of an icon representing the type of sound registered in advance by the user.
  • the user of the device 10 (hereinafter simply referred to as “user”) gives the output unit 28 an icon in which the shape, color, and size are customized for the type of sound. You can register.
  • the icons that can be displayed on the output unit 28 are not limited to the icons shown in FIGS. 3A to 3I.
  • the output unit 28 can display an icon corresponding to the type of voice that can be identified by the voice recognition unit 34.
  • the icon shown in FIG. 3H is an alert mark particularly because it is an icon for alerting the user.
  • the alert mark may have any design as long as the user can be alerted.
  • the triangle edge is enclosed in black and the type of warning (in the example of FIG. 3H) An exclamation point) is used.
  • the speech recognition unit 34 includes, for example, an acoustic analysis unit 40, a recognition decoder unit 42, an acoustic model unit 44, a dictionary 46, and a language model unit 48.
  • the acoustic analysis unit 40 performs frequency analysis of the audio signal at predetermined time intervals, for example, and obtains time-series data of an acoustic spectrum indicating the sound level for each frequency component.
  • the recognition decoder unit 42 specifies the type of sound represented by the audio signal from the time-series data of the acoustic spectrum acquired by the acoustic analysis unit 40, and the type of audio represented by the audio signal is a human voice. In this case, it has a function of recognizing the utterance content from the voice signal and converting it into characters. At that time, the recognition decoder unit 42 proceeds with the process in cooperation with the acoustic model unit 44, the dictionary 46, and the language model unit 48.
  • the acoustic model unit 44 compares the feature amounts of various types of acoustic spectra registered in the dictionary 46 in advance with the acoustic spectrum (recognition target spectrum) acquired by the acoustic analysis unit 40, and An acoustic spectrum similar to the recognition target spectrum is selected from among them. Then, the acoustic model unit 44 sets the speech type corresponding to the selected acoustic spectrum as the speech type represented by the recognition target spectrum.
  • the acoustic model unit 44 assigns an utterance sound to the recognition target spectrum when the voice type of the recognition target spectrum is a human voice based on an instruction from the recognition decoder unit 42. Specifically, the acoustic model unit 44 compares the feature quantity of the acoustic spectrum representing the speech sound registered in advance in the dictionary 46 with the feature quantity of the recognition target spectrum, and recognizes the recognition target spectrum from the dictionary 46. The acoustic spectrum of the utterance most similar to is selected.
  • the language model unit 48 converts the sequence of utterances corresponding to the recognition target spectrum obtained by the acoustic model unit 44 into natural sentences without a sense of incongruity based on an instruction from the recognition decoder unit 42. For example, from the words registered in the dictionary 46 in advance, a word along the flow of the utterance sound is selected according to the statistical model, and the connection between the word and the word and the position of the word are judged and converted into a natural sentence.
  • the language processing model used for the acoustic model unit 44 and the language model unit 48 is not limited, and a known language processing model such as a hidden Markov model can be applied.
  • FIG. 5 shows a configuration diagram when each functional unit of the device 10 is realized by a computer.
  • the computer 200 includes a CPU 202, a memory 204, and a nonvolatile storage unit 206.
  • the CPU 202, the memory 204, and the nonvolatile storage unit 206 are connected to each other via a bus 208.
  • the computer 200 includes a microphone 22 and a projector 24, and the microphone 22 and the projector 24 are connected to a bus 208.
  • the computer 200 includes an I / O 210 for reading from and writing to a recording medium, and the I / O 210 is also connected to the bus 208.
  • the storage unit 206 can be realized by an HDD (Hard Disk Drive), a flash memory, or the like.
  • the storage unit 206 stores a display control program 220 for causing the computer 200 to function as each functional unit of the device 10 shown in FIG.
  • the display control program 220 stored in the storage unit 206 includes an input process 222, a sound source location process 224, a speech recognition process 226, and an output process 228.
  • the CPU 202 reads out the display control program 220 from the storage unit 206, expands it in the memory 204, and executes each process of the display control program 220.
  • the CPU 200 reads out the display control program 220 from the storage unit 206, expands it in the memory 204, and executes the display control program 220, whereby the computer 200 operates as each functional unit of the device 10 shown in FIG. Specifically, when the CPU 202 executes the input process 222, the computer 200 operates as the input unit 26 illustrated in FIG. Further, when the CPU 202 executes the sound source position specifying process 224, the computer 200 operates as the sound source position specifying unit 32 shown in FIG. Further, when the CPU 202 executes the voice recognition process 226, the computer 200 operates as the voice recognition unit 34 shown in FIG. Further, when the CPU 202 executes the output process 228, the computer 200 operates as the output unit 28 illustrated in FIG. The CPU 202 executes the sound source position specifying process 224 and the voice recognition process 226, whereby the computer 200 operates as the control unit 30 shown in FIG.
  • the CPU 200 expands the dictionary data included in the dictionary storage area 240 in the memory 204, so that the computer 200 includes the dictionary 46 shown in FIG.
  • each functional unit of the device 10 can be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC (Application Specific Integrated Circuit) or the like.
  • ASIC Application Specific Integrated Circuit
  • the device 10 according to the first embodiment executes audio subtitle processing after the device 10 is activated.
  • the voice subtitle conversion process converts the utterance contents of the speaker into characters (subtitles), and irradiates the retina with laser from the projector 24 so as to display the subtitled characters. This is a process of displaying the image overlapping the field of view.
  • FIG. 6 is a flowchart illustrating an example of the flow of the audio caption processing of the device 10 according to the first embodiment.
  • step S10 the input unit 26 determines whether or not a subtitle conversion start instruction has been received.
  • the subtitle start instruction is instructed, for example, by operating a button (not shown) provided on the device 10.
  • the process of step S10 is repeated until the subtitle conversion start instruction is received.
  • the determination is affirmative, that is, if an instruction to start subtitles is received, the process proceeds to step S20.
  • step S20 the input unit 26 collects sound generated around the device 10 through the microphones 22 incorporated in the left and right temples 18, respectively. Then, the input unit 26 determines whether or not any sound is generated, and in the case of a negative determination, the process of step S20 is repeated until some sound is collected. On the other hand, in the case of an affirmative determination, the sound signal of each sound collected by each microphone 22 is output to the sound source position specifying unit 32, and the process proceeds to step S30.
  • a method for determining whether or not some sound has occurred for example, a method for determining that some sound has occurred when the sound collected by at least one microphone 22 is equal to or higher than a predetermined sound level. Although used, it is not limited to this.
  • the sound source position specifying unit 32 calculates the incident angle of the sound with respect to the device 10 from the difference in arrival time of each sound signal notified from the input unit 26. For example, the sound source position specifying unit 32 calculates an incident angle by associating an incident angle in a three-dimensional coordinate space with the position of the device 10 as an origin with respect to a shift in input timing of an audio signal input from each of the microphones 22. The sound incident angle is calculated with reference to the table. The sound source position specifying unit 32 calculates an incident angle by associating the incident angle in the three-dimensional coordinate space with the position of the device 10 as the origin with respect to the difference in the magnitude of the audio signal input from each of the microphones 22. The sound incident angle may be calculated with reference to a table.
  • the incident angle corresponding to the combination of the difference in the arrival time of the audio signal or the difference in the size of the audio signal is obtained in advance by an experiment using the actual device 10 or a computer simulation based on the design specification of the device 10. It is done.
  • the incident angle calculation table is stored in advance in a predetermined area of the memory 204, for example.
  • the sound source position specifying unit 32 specifies the sound generation direction more accurately by separating the microphones 22 as much as possible in order to specify the sound generation direction from the difference in arrival time of the sound signal. be able to. Therefore, it is preferable that the positions of the microphones 22 in the device 10 are shifted in the height direction, the front-rear direction, and the left-right direction of the device 10.
  • the height direction of the device 10 refers to the vertical direction when the device 10 is mounted on the head
  • the front-rear direction of the device 10 refers to a direction orthogonal to the light incident surface of the transparent member 19.
  • the left-right direction of the device 10 refers to a direction orthogonal to the height direction and the front-rear direction of the device 10.
  • the sound source position specifying unit 32 notifies the voice recognition unit 34 of the voice signal and instructs the voice recognition unit 34 to convert the utterance content represented by the voice signal into subtitles.
  • step S40 the voice recognition unit 34 executes voice recognition processing to convert the utterance content represented by the voice signal into subtitles.
  • FIG. 7 is a flowchart showing an example of the flow of the speech recognition process executed in the process of step S40.
  • step S400 the acoustic analysis unit 40 performs frequency analysis of an audio signal, for example, at predetermined time intervals, and acquires time-series data of an acoustic spectrum indicating the magnitude of audio for each frequency component.
  • step S401 the recognition decoder unit 42 notifies the acoustic model unit 44 of the acoustic spectrum acquired in the process of step S400, that is, the time-series data of the recognition target spectrum. Then, the recognition decoder unit 42 instructs the acoustic model unit 44 to specify the type of speech corresponding to the recognition target spectrum. A method for specifying the type of sound in the acoustic model unit 44 will be described later.
  • the recognition decoder unit 42 determines whether or not the type of speech corresponding to the recognition target spectrum specified by the acoustic model unit 44 is a human voice. If the determination is negative, the determination result is sent to the sound source position specifying unit 32. At the same time, the audio subtitle processing is completed. On the other hand, if the determination is affirmative, the process proceeds to step S402.
  • step S402 the recognition decoder unit 42 instructs the acoustic model unit 44 to assign a speech sound to a recognition target spectrum identified as a human voice.
  • the acoustic model unit 44 compares the feature quantities of the acoustic spectrum representing the utterance sound registered in advance in the dictionary 46 and the recognition target spectrum, and the sound of the utterance sound most similar to the recognition target spectrum from the dictionary 46. Select the spectrum. Thus, the acoustic model unit 44 assigns the utterance sound to the recognition target spectrum, and notifies the recognition decoder unit 42 of the assignment result.
  • step S404 when the sound model assignment result is notified from the acoustic model unit 44, the recognition decoder unit 42 notifies the language model unit 48 of the sound sound assignment result. Then, the recognition decoder unit 42 instructs the language model unit 48 to convert the speech sound assignment result into a natural sentence without a sense of incongruity.
  • the language model unit 48 selects words along the flow of utterances according to a statistical model from words registered in advance in the dictionary 46, and probabilistically determines the connection between words and the position of words. And convert it into natural sentences. In this way, the language model unit 48 converts the arrangement of the utterances corresponding to the recognition target spectrum into a natural sentence having no sense of incongruity, and notifies the recognition decoder unit 42 of the conversion result.
  • step S406 the recognition decoder unit 42 notifies the sound source position specifying unit 32 of the utterance content of the speaker who has been subtitled in the process of step S404. Further, the recognition decoder unit 42 notifies the sound source position specifying unit 32 of the determination result that the type of sound represented by the sound signal is a human voice.
  • step S40 shown in FIG. 6 is executed by the processes in steps S400 to S406.
  • step S41 shown in FIG. 6 the sound source position specifying unit 32 determines whether or not the voice type specified in the voice recognition process in step S40 is a human voice. If the determination is affirmative, the process proceeds to step S50. Transition. On the other hand, in the case of negative determination, since the type of voice is not a human voice, the process proceeds to step S60 without performing the process of step S50 described below.
  • step S50 the sound source position specifying unit 32 acquires the sound generated by the microphone 22 in the direction of the sound specified in the process of step S30 in the process of step S40 because the type of the sound collected by the microphone 22 is a human voice.
  • the output unit 28 is instructed to display the subtitled utterance content.
  • the output unit 28 When the output unit 28 receives a display instruction from the sound source position specifying unit 32, the output unit 28 uses the projector 24 to display the subtitled utterance content at a position corresponding to the sound generation direction in the visual field.
  • step S60 the input unit 26 determines whether or not an instruction to end captioning has been received.
  • the captioning end instruction is instructed by operating a button or the like (not shown) provided in the device 10 as in the captioning start instruction. If a negative determination is made, the process proceeds to step S20, and the audio subtitle processing is continued by repeating the processes of steps S20 to S60. On the other hand, if the determination is affirmative, the audio subtitle processing shown in FIG. 6 ends.
  • the device 10 displays the caption corresponding to the sound when the voice collected by the microphone 22 includes a human voice.
  • the output unit 28 updates the display of the subtitles by performing processing such as deleting subtitles that have been displayed for a predetermined time since display or deleting previously displayed subtitles at the timing of displaying new subtitles.
  • FIG. 8 is a diagram showing an example of subtitles displayed in the user's field of view when the audio subtitle processing shown in FIG. 6 is executed.
  • subtitles may be displayed inside the balloon.
  • the subtitles may be displayed at the position corresponding to the sound generation direction, it is possible to make it easier to understand who is speaking.
  • the speech recognition unit 34 stores the characteristics of the acoustic spectrum of the speaker, identifies the speaker by comparing the stored acoustic spectrum and the recognition target spectrum, and changes the subtitle color for each speaker. May be displayed.
  • the male voice and female voice are used to determine the gender of the speaker using the fact that the frequency components included in the voice are different.
  • the subtitle color may be changed and displayed as red subtitle.
  • the speech recognition unit 34 may calculate the size of the speech from the recognition target spectrum, and change the size of the subtitle character according to the size of the speech. For example, by increasing the size of the subtitle character corresponding to the sound as the size of the sound increases, the user can visually grasp the size of the sound.
  • the user can instruct the device 10 to start and end the audio subtitle processing by his / her own determination. Therefore, it is possible to switch the operation of the audio subtitle processing according to the user's situation, such as starting the audio subtitle processing during the conference and ending the audio subtitle processing when concentrating on work, and unnecessary utterances. However, it is possible to reduce the troublesomeness that is displayed as subtitles in the user's field of view.
  • the audio subtitle processing of the device 10 can subtitle not only the content of the speech of others around the user but also the content of the user's own speech.
  • the user's acoustic spectrum is registered in the dictionary 46 in advance, and the speech recognition unit 34 determines the similarity between the recognition target spectrum and the user's acoustic spectrum, thereby determining whether or not the speaker is the user. Can do.
  • the subtitle representing the user's utterance content is displayed in an area 81 provided at the lower part of the field of view, for example, as shown in FIG. Because hearing impaired people have difficulty in confirming their utterances, the intonation and pronunciation of words uttered by hearing impaired people may differ from the utterances of healthy individuals, and the intended content may not be transmitted to the other party.
  • the device 10 can convert the words uttered by the user into subtitles and display them in the area 81, it is possible to visually confirm how the words uttered by the user are heard by the other party. Therefore, the user can train to get closer to the correct pronunciation. Moreover, since the subtitle representing the user's utterance content is displayed at a position different from the subtitle representing the other person's utterance content, it is easy to confirm the utterance content uttered by the user.
  • the user can prevent the subtitle representing the utterance content of the user from being displayed in the area 81 by setting the device 10. By not displaying subtitles representing the user's utterance content, the number of subtitles displayed in the user's field of view can be suppressed.
  • the device 10 executes a status notification process after the device 10 is activated.
  • the situation notification process is a process of notifying the user of the type and direction of sound generated around the user.
  • the sound generated around the user is information for notifying the user of some situation, it can be regarded as a “call” to the user.
  • FIG. 9 is a flowchart showing an example of the flow of status notification processing of the device 10 according to the first embodiment.
  • step S20 and step S30 the same processing as the processing in step S20 and step S30 in the audio caption processing shown in FIG. 6 is performed.
  • the sound source position specifying unit 32 instructs the voice recognition unit 34 to subtitle the utterance content represented by the audio signal, instead of the type of the audio represented by the audio signal. Specify specific.
  • step S42 the voice recognition unit 34 executes a voice type identification process to identify the type of voice represented by the voice signal.
  • FIG. 10 is a flowchart showing an example of the voice type identification process executed in the process of step S42.
  • step S400 processing similar to the processing in step S400 shown in FIG. 7 is performed to acquire time-series data of the recognition target spectrum.
  • step S408 the recognition decoder unit 42 notifies the acoustic model unit 44 of the time series data of the recognition target spectrum acquired in the process of step S400. Then, the recognition decoder unit 42 instructs the acoustic model unit 44 to specify the type of speech corresponding to the recognition target spectrum.
  • the acoustic model unit 44 compares the feature quantities of various types of acoustic spectra of speech registered in the dictionary 46 in advance with the recognition target spectrum, and generates an acoustic spectrum similar to the recognition target spectrum from the dictionary 46. select. Then, the acoustic model unit 44 identifies the type of speech corresponding to the selected acoustic spectrum as the type of speech represented by the recognition target spectrum, and notifies the recognition result to the recognition decoder unit 42.
  • the similarity between the feature amount of the acoustic spectrum and the feature amount of the recognition target spectrum is represented by a numerical value that increases as the feature amounts of the two are similar. For example, when the numerical value is equal to or greater than a predetermined threshold, It is determined that the feature amounts are similar.
  • the acoustic model unit 44 specifies the type of voice corresponding to the recognition target spectrum.
  • the recognition decoder unit 42 is notified of the specific result that is not possible.
  • the recognition decoder unit 42 notifies the sound source position specifying unit 32 of the specifying result notified from the acoustic model unit 44.
  • step S42 shown in FIG. 9 is executed by the processes in step S400 and step S408.
  • step S43 shown in FIG. 9 the sound source position specifying unit 32 refers to the result of specifying the sound type specified in the sound type specifying process in step S42, and the type of sound collected by the microphone 22 is specified. It is determined whether or not. If the determination is affirmative, the process proceeds to step S52. If the determination is negative, the process proceeds to step S62 without performing the process of step S52 described below.
  • step S52 the sound source position specifying unit 32 instructs the output unit 28 to display an icon indicating the type of sound specified in the process of step S42 in the direction of sound generation specified in the process of step S30.
  • the output unit 28 When the output unit 28 receives a display instruction from the sound source position specifying unit 32, the output unit 28 acquires an icon corresponding to the designated type of sound from, for example, a predetermined area of the memory 204. Then, the output unit 28 displays an icon at a position corresponding to the sound generation direction within the visual field using the projector 24.
  • step S62 the input unit 26 determines whether the power of the device 10 is turned off.
  • the power on / off state can be acquired, for example, by a state of a button or the like (not shown) provided in the device 10. If a negative determination is made, the process proceeds to step S20, and the status notification process is continued by repeating the processes of steps S20 to S62. On the other hand, if the determination is affirmative, the status notification process shown in FIG. 9 ends.
  • the output unit 28 updates the icon display by performing a process such as deleting an icon that has been displayed for a predetermined period of time after display or deleting a previously displayed icon at the timing of displaying a new icon.
  • FIG. 11 is a diagram showing an example of icons displayed in the user's field of view when the status notification process shown in FIG. 9 is executed.
  • the range of the user's visual field is shown as an ellipse as an example.
  • the output unit 28 displays an icon 70 representing the driving sound of the vehicle at the lower right of the field of view.
  • the user can take an action such as moving on the left side.
  • the type of sound is specified, and an icon corresponding to the type of sound is displayed in the direction of sound generation. In some cases, the user can be alerted more quickly.
  • step S30 when the sound generation direction is any of the rear, the right rear, and the left rear in the process of step S30, the processes of steps S42 and S43 are omitted, and the process of step S52 is performed.
  • a mark for prompting attention in the sound generation direction may be displayed.
  • FIG. 12 is a diagram showing an example in which the icon 71 shown in FIG. 3H is displayed as a mark for prompting the user to call attention when the direction of sound generation is later, for example.
  • the color of the icon indicates that the sound source is positioned in the user's vertical direction. Change the color and display it overlaid on the field of view.
  • the color representing that the sound source is located in the vertical direction of the user will be described as green.
  • the color that can be recognized as the color representing that the sound source is located in the vertical direction of the user is used. Needless to say, it is not limited to green.
  • FIG. 13 is a diagram showing a display example of an icon when the running sound of the vehicle is heard from above the user at a three-dimensional intersection or the like, for example.
  • the green icon 72 shown in FIG. 3G is displayed in the center of the field of view to notify the user that the running sound of the vehicle can be heard from above. If the running sound of the vehicle is heard from the upper left front of the user, the green icon 72 shown in FIG. 3G is displayed on the upper left of the field of view.
  • the icon 72 is displayed at the center of the field of view, and at least one of the brightness, hue, and saturation of the icon 72 is displayed. To indicate that the sound source is below the user. Specifically, when the sound source is below the user, for example, at least one of the brightness, hue, and saturation of the icon 72 is made different from the case where the sound source is above the user. .
  • FIG. 14 is a view showing a display example of icons when the upper field of view is assigned to “up”, the lower part of the field of view is “lower”, the right side of the field of view is “right”, and the left side of the field of view is assigned to “left”.
  • the output unit 28 displays the icon 74 shown in FIG. 3G above the visual field.
  • the sound generation direction is assigned as shown in FIG. 14, if some sound is heard before or after the user, the corresponding icon is displayed in the center of the field of view. Then, at least one of the brightness, hue, and saturation of the icon is changed depending on whether the sound generation source is in front of or behind the user.
  • the sound recognition unit 34 may calculate the sound volume from the recognition target spectrum and change the icon display size according to the sound volume. For example, by increasing the display size of the icon corresponding to the sound type as the sound volume increases, the user can visually grasp the sound volume generated by the sound type corresponding to the icon. .
  • FIG. 15 is a diagram for explaining an example in which the icon display size is changed in accordance with the sound volume.
  • the output unit 28 may be replaced with FIG. An icon 60 as viewed from the front as shown in 16A is displayed.
  • the output unit 28 displays an icon 62 as seen from the rear as shown in FIG. 16B.
  • the output unit 28 may change the icon color according to the sound generation direction.
  • the output unit 28 displays the icon shown in FIG. 3G. For example, the color is displayed in yellow.
  • the output unit 28 displays the icon color shown in FIG. 3G in blue, for example.
  • the status notification process is executed when the device 10 is activated, unlike the audio caption processing shown in FIG. Therefore, for example, even when called unexpectedly, the user can be notified.
  • the voice recognition unit 34 recognizes the type of voice as a human voice, a linkage process such as starting a voice subtitle process may be performed.
  • the device 10 can recognize the user's own voice as a human voice, and for example, can be set not to display the icon shown in FIG. 3A. By setting so as not to perform the situation notification process on the user's own voice, the user can easily notice a call from another person.
  • the user sets the type of sound to be displayed in the device 10 in advance from among the types of sound registered in the device 10, and outputs when the type of sound collected by the microphone 22 is the display target.
  • the unit 28 may display an icon corresponding to the type of sound. In this case, since the icon corresponding to the type of sound that the user does not set as the display target is not displayed, it is possible to reduce the annoyance that the icon that the user does not want to display is displayed in the user's field of view.
  • the icon shown in FIG. 3A may not be displayed even if the voice type is a human voice unless the call is directed to the user.
  • the user's name, nickname, and the acoustic spectrum of a specific phrase that calls the user such as “I'm sorry” are registered in the dictionary 46 in advance.
  • the acoustic model unit 44 specifies that the type of voice represented by the recognition target spectrum is a human voice
  • the acoustic model unit 44 further includes the acoustic spectrum of the voice calling the user in the recognition target spectrum. Judge whether or not.
  • the acoustic model unit 44 notifies the determination result to the sound source position specifying unit 32, and the sound source position specifying unit 32 displays the icon illustrated in FIG. 3A when the recognition target spectrum includes the sound spectrum of the voice calling the user.
  • the output unit 28 is instructed to do so.
  • the acoustic model unit 44 assigns the utterance sound to the recognition target spectrum
  • the language model unit 48 converts the utterance sound corresponding to the recognition target spectrum into a sentence.
  • the language model unit 48 may perform morphological analysis on the converted sentence and determine whether or not the voice collected by the microphone 22 includes a call to the user.
  • morphological analysis is a method of dividing a sentence into meaningful words and analyzing the composition of the sentence.
  • the recognition target spectrum does not include the acoustic spectrum of the voice calling the user, even if a human voice is emitted around the user, the display of the icon shown in FIG. 3A is suppressed.
  • an icon is used as a method of notifying the user of the type of sound, but a form in which characters are displayed instead of icons or a form in which icons and characters are used in combination may be used.
  • the voice model of a specific person is registered in the dictionary 46, and the acoustic model unit 44 determines whether the acoustic spectrum of the voice calling the user is similar to the acoustic spectrum of the voice pattern of the specific person registered in the dictionary 46. Determine whether. Then, the acoustic model unit 44 notifies the determination result to the sound source position specifying unit 32, and the sound source position specifying unit 32 is a case where the sound represented by the recognition target spectrum belongs to a specific person registered in the dictionary 46. In addition, the output unit 28 may be instructed to display the icon shown in FIG. 3A.
  • the hearing impaired person executes the audio subtitle processing installed in the device 10 according to the first embodiment, so that it can be performed in a shorter time and more accurately than the conversation or writing through the sign language interpretation.
  • the utterance content of the speaker can be grasped. Therefore, it is possible to easily communicate with surrounding people.
  • the status notification process installed in the device 10 it is possible to visualize the sound that can be heard in the surroundings. Therefore, a hearing impaired person who uses the device 10 can quickly notice various sounds generated in his / her life, and can make a quick situation determination.
  • the device 10 displays an icon or a character corresponding to the voice when the voice picked up by the microphone 22 includes a predetermined voice predetermined by the user. Therefore, the hearing impaired person who uses the device 10 can suppress the complexity of the display caused by a sound other than the predetermined sound.
  • the acoustic spectrum and words for the utterances of languages of a plurality of countries are registered in the dictionary 46, and the language model 48 is provided with a language processing model relating to the languages of a plurality of countries, thereby recognizing the utterance contents of foreigners. be able to.
  • the utterance content of the foreigner may be displayed after being translated into the user's native language.
  • FIG. 17 is an example of a flowchart in which processing representing the subtitle display order is added in the audio subtitle processing of the device 10.
  • step S54 the sound source position specifying unit 32 starts a timer for the subtitles instructed to be displayed to the output unit 28 in the process of step S50.
  • the sound source position specifying unit 32 sets a timer so that, for example, the sound source position specifying unit 32 is notified after a predetermined time has elapsed, and then starts the timer for each subtitle.
  • the timer can use a timer function built in the CPU 202, for example.
  • the sound source position specifying unit 32 executes the processes in steps S22 to S28.
  • step S22 the sound source position specifying unit 32 determines whether there is a caption for which display is instructed to the output unit 28. If the determination is negative, the process proceeds to step S20. If the determination is affirmative, the process proceeds to step S24.
  • step S24 the sound source position specifying unit 32 instructs the output unit 28 to display the subtitle brightness with a predetermined value lowered for each subtitle for which display has been instructed.
  • step S26 the sound source position specifying unit 32 determines whether there is a timer for notifying the elapse of a predetermined time among the timers activated in the process of step S54. If the determination is negative, the process proceeds to step S20. If the determination is affirmative, the process proceeds to step S28.
  • step S28 the sound source position specifying unit 32 instructs the output unit 28 to delete the caption corresponding to the timer that notifies the elapse of the predetermined time in the process of step S26.
  • FIG. 18 is a diagram showing an example of subtitles displayed in the user's field of view when the audio subtitle processing shown in FIG. 17 is executed.
  • FIG. 18 shows an example in which the subtitle brightness of “Do you know a wearable device for the hearing impaired?” Is lower than the subtitle brightness of “I have heard”.
  • the process of step S24 is repeatedly executed, so that the subtitle brightness is displayed lower for subtitles whose utterance time is older, so the user grasps the subtitle display order. be able to.
  • the degree of blurring of the captions may be changed. Specifically, for example, the subtitle blurring degree may be increased and the sharpness of the subtitle may be decreased as the subtitle is older. Moreover, you may display the number showing the display order of a caption to a caption.
  • the process representing the display order of the information corresponding to the sound can be applied to the situation notification process shown in FIG. 9 by replacing the target representing the display order from the subtitle to the icon.
  • step S52 a timer is started for each icon. Then, in the voice waiting state in the case where a negative determination is made in the process of step S20, each process of steps S22 to S28 shown in FIG. The brightness of the icon can be changed.
  • the device 10 can notify the user of which information is recently displayed among the information corresponding to the sound by changing the visibility of the subtitles and icons. . Therefore, the user can understand the flow of conversation and the flow of changes in surrounding conditions.
  • the subtitles and icons that have passed for a predetermined time are deleted, the number of subtitles and icons displayed in the field of view is limited, making it easier to grasp the situation.
  • the device 10 that calculates the incident angle of sound from the difference in arrival time of the sound signal obtained from each microphone 22 and identifies the sound generation direction has been described.
  • a device that further detects the direction of the line of sight of the user and corrects the display position of the caption and the icon by combining the direction of the line of sight and the direction in which the specified sound is generated will be described.
  • FIG. 19 is a diagram illustrating an example of a wearable device according to the second embodiment.
  • the wearable device 12 (hereinafter referred to as the device 12) is a spectacle-type terminal in which an electrooculogram sensor 21 is further incorporated in each of the left and right pad crings of the device 10 according to the first embodiment. It is. That is, the device 12 has the same structure as that of the device 10 except that the electrooculogram sensor 21 is incorporated.
  • the electrooculogram sensor 21 is a sensor that measures the eye movement of the user when the device 12 is worn from the potential difference generated in the skin around the pad klings portion and detects the direction of the user's line of sight.
  • the electrooculogram sensor 21 is used as an eye movement measurement method.
  • this is low in price because the device configuration is relatively simple, and maintenance is relatively easy. It is.
  • the eye movement measurement method is not limited to the method using the electrooculogram sensor 21.
  • known measurement methods relating to eye movement such as search coil method, scleral reflection method, corneal reflection method, and video-oculography method can be used.
  • the device 12 includes two electrooculogram sensors 21, but the number of electrooculogram sensors 21 is not limited. Further, there is no limitation on the installation location of the electrooculogram sensor 21 as long as the potential difference generated around the eyeball can be measured.
  • the electrooculogram sensor 21 may be provided in a portion between the eyebrows connecting the right transparent member 19 and the left transparent member 19, and the electrooculogram sensor 21 may be provided in a frame surrounding the transparent member 19.
  • FIG. 20 is a functional block diagram showing functions of the device 12 shown in FIG.
  • the difference from the functional block diagram of the device 10 according to the first embodiment shown in FIG. 2 is that a line-of-sight detection unit 36 is added.
  • the line-of-sight detection unit 36 detects the direction in which the user's line of sight is directed from the information on the potential difference acquired by the electrooculogram sensor 21 and notifies the sound source position specifying unit 32 of the detected direction.
  • FIG. 21 shows a configuration diagram when each functional unit of the device 12 is realized by a computer.
  • the configuration diagram of the computer 200A shown in FIG. 21 is different from the configuration diagram of the computer 200 according to the first embodiment shown in FIG. 5 in that a line-of-sight detection process 230 is added to the display control program 220A. 208 is that the electrooculogram sensor 21 is connected.
  • the CPU 202 reads out the display control program 220A from the storage unit 206, expands it in the memory 204, and executes the display control program 220A, whereby the computer 200A operates as each functional unit of the device 12 shown in FIG. Then, when the CPU 202 executes the line-of-sight detection process 230, the computer 200A operates as the line-of-sight detection unit 36 illustrated in FIG.
  • each functional unit of the device 12 can be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC or the like.
  • the device 12 according to the second embodiment executes audio subtitle processing after the device 12 is activated.
  • FIG. 22 is a flowchart illustrating an example of the flow of the audio subtitle processing of the device 12.
  • the difference from the flowchart of the audio subtitle processing according to the first embodiment shown in FIG. 6 is that step S44 is added and step S50 is replaced with the process of step S56.
  • step S44 the line-of-sight detection unit 36 detects the direction in which the user's line of sight is directed from the information on the potential difference acquired by the electrooculogram sensor 21. Specifically, the line-of-sight detection unit 36 associates the angle of the line of sight in a three-dimensional coordinate space with the position of the device 12 as the origin for each combination of potential differences obtained from the respective electrooculogram sensors 21. The direction of the user's line of sight is calculated with reference to
  • the line-of-sight angle corresponding to the combination of potential differences is obtained in advance by experiments with the actual device 12 or computer simulation based on the design specifications of the device 12.
  • the line-of-sight calculation table is stored in advance in a predetermined area of the memory 204, for example.
  • the line-of-sight detection unit 36 notifies the sound source position specifying unit 32 of the calculated line-of-sight direction.
  • step S56 the sound source position specifying unit 32 temporarily determines the display position of the subtitle acquired in the process of step S40 from the sound generation direction specified in the process of step S30, as in the process of step S50 shown in FIG. To do. Then, the sound source position specifying unit 32 corrects the temporarily-displayed caption display position based on the user's line-of-sight direction detected in the process of step S44.
  • the user's line of sight is in the user's front direction.
  • the center of the user's field of view changes depending on the direction of the user's line of sight. For this reason, the user perceives the shift between the subtitle display position and the sound generation direction only by displaying the caption at the position corresponding to the sound generation direction specified from the difference in the arrival time of the audio signal. This is because there are cases.
  • the device 12 can accurately display in the user's field of view which speaker has uttered the utterance corresponding to the caption.
  • the presence / absence of a captioning start instruction in step S10 and the presence / absence of a captioning end instruction in step S60 are determined based on, for example, whether a button or the like provided on the device 10 is operated. .
  • the start and end of the audio subtitle processing may be switched by a specific eye sign such as three consecutive blinks. .
  • the operability is improved as compared with the operation of switching the start and stop of the audio subtitle processing by hand.
  • the device 12 executes status notification processing after the device 12 is activated.
  • FIG. 23 is a flowchart showing an example of the flow of status notification processing of the device 12.
  • the difference from the flowchart of the status notification process according to the first embodiment shown in FIG. 9 is that step S44 is added and step S52 is replaced with the process of step S58.
  • step S44 the direction of the user's line of sight is detected by the same processing as in step S44 in the audio subtitle processing described in FIG.
  • step S58 the display position correction target is replaced with an icon, and then the process of step S56 in the audio subtitle conversion process described with reference to FIG. 22 is performed, thereby detecting the direction of the user's line of sight detected in the process of step S44. To correct the icon display position.
  • the device 12 can accurately display the position of the sound source in the user's field of view in consideration of the direction of the user's line of sight.
  • the contents suggested in the device 10 according to the first embodiment can be applied to the device 12 according to the second embodiment.
  • Deaf people may communicate their intentions verbally, but as already mentioned, deaf people are difficult to confirm their utterances, so it is often difficult and difficult to learn correct pronunciation. There is a possibility that the content is not transmitted to the other party. This is especially true for people with congenital hearing impairments and those whose hearing has declined in early childhood.
  • a device having a so-called speech function that converts a sentence created by a user into voice and outputs the voice to surrounding people will be described.
  • FIG. 24 is a diagram illustrating an example of a wearable device according to the third embodiment.
  • the wearable device 14 (hereinafter referred to as device 14) is a spectacle-type terminal in which a speaker 18 of the device 12 according to the second embodiment is further incorporated with a speaker 23.
  • speakers 23 are built in the left and right temples 18 respectively.
  • this is an example, and the position and number of the speakers 23 built in the device 14 are not limited.
  • FIG. 25 is a functional block diagram showing functions of the device 14 shown in FIG.
  • the difference from the functional block diagram of the device 12 according to the second embodiment shown in FIG. 20 is that the speaker 23 is connected to the output unit 28 and the output unit. 28 and the line-of-sight detection unit 36 are directly connected.
  • the gaze detection unit 36 when the gaze detection unit 36 receives an instruction to start the speech function by a specific eye sign from the user, the gaze detection unit 36 displays a dial in which characters such as alphabets are arranged in different positions one by one in the user's field of view. The output unit 28 is instructed. Then, the line-of-sight detection unit 36 detects which character of the dial the user is looking from the potential difference measured by the electrooculogram sensor 21, and specifies the character selected by the user. Then, the line-of-sight detection unit 36 notifies the output unit 28 of a sentence represented by the arrangement of characters selected by the user at a timing specified by the user.
  • the output unit 28 converts the sentence notified from the line-of-sight detection unit 36 into a voice that reads out the sentence, and outputs a voice that reads out the sentence from the speaker 23.
  • each functional unit of the device 14 is realized by a computer
  • the speaker 23 is further connected to the bus 208 in the configuration diagram in the case where each functional unit of the device 12 shown in FIG. 21 is realized by a computer.
  • the device 14 according to the third embodiment executes an utterance process after the device 14 is activated.
  • FIG. 26 is a flowchart showing an example of the flow of the speech process of the device 14.
  • step S ⁇ b> 100 the line-of-sight detection unit 36 acquires a change in potential difference around the user's eyeball from the electrooculogram sensor 21. Then, the line-of-sight detection unit 36 notifies the user of the utterance start instruction by comparing whether or not the acquired change state of the potential difference matches the change of the potential difference generated by a predetermined eye sign determined in advance as the utterance start instruction. It is determined whether or not. In the case of negative determination, the process of step S100 is repeatedly executed, and an utterance start instruction from the user is waited for. On the other hand, if the determination is affirmative, the line-of-sight detection unit 36 instructs the output unit 28 to display a dial face, and the process proceeds to step S110.
  • information regarding the change in potential difference corresponding to the utterance start instruction eye sign may be stored in advance in a predetermined area of the memory 204, for example.
  • step S110 when the output unit 28 receives a dial display instruction from the line-of-sight detection unit 36, the output unit 28 displays the dial in the user's field of view using the projector 24. For example, characters, alphanumeric characters, symbols, and the like are displayed on the dial, and the output unit 28 switches the display content of the dial by receiving an instruction to switch the display content of the dial from the line-of-sight detection unit 36.
  • the user can preset the type of characters that are initially displayed on the dial. For example, users who use English use characters used in English, and those who use Japanese use Japanese. Can be displayed on the dial.
  • the line-of-sight detection unit 36 detects which character the user is looking on the dial from the potential difference measured by the electrooculogram sensor 21, and identifies the character selected by the user.
  • the line-of-sight detection unit 36 refers to a character conversion table that associates in advance a potential difference measured by the electrooculogram sensor 21 and a character on the face ahead of the line of sight when the potential difference occurs. Then, the character selected by the user is specified.
  • the correspondence between the potential difference measured by the electrooculogram sensor 21 and the characters on the dial ahead of the line of sight when the potential difference occurs depends on the experiment with the actual device of the device 14 and the design specifications of the device 14. It is obtained in advance by a computer simulation or the like.
  • the character conversion table is stored in advance in a predetermined area of the memory 204, for example.
  • step S130 the line-of-sight detection unit 36 stores the character selected by the user specified in step S120 in a predetermined area of the memory 204, for example.
  • step S140 the line-of-sight detection unit 36 acquires a change in potential difference around the user's eyeball from the electrooculogram sensor 21. Then, the line-of-sight detection unit 36 notifies the user of the utterance end instruction by comparing whether the acquired change state of the potential difference matches the change of the potential difference generated by a predetermined eye sign predetermined as the utterance end instruction. It is determined whether or not. If the determination is negative, the process proceeds to S120, and the processes of steps S120 to S140 are repeatedly executed. By repeatedly executing the processes of steps S120 to S140, the characters selected by the user specified in the process of step S120 are sequentially stored in the memory 204 by the process of step S130, and a sentence that the user wants to convey is generated.
  • step S150 the process proceeds to step S150.
  • step S150 the output unit 28 stops displaying the dial displayed in the process of step S110.
  • step S160 the output unit 28 converts the sentence stored in the predetermined area of the memory 204 in the process of step S130 into a voice for reading the sentence, and outputs the voice for reading the sentence from the speaker 23.
  • any of known speech synthesis techniques may be applied to the synthesis of output speech.
  • the tone of the voice may be changed depending on the content and context of the sentence. Specifically, if the sentence conveys an emergency, the voice is output from the speaker 23 at a higher utterance speed and higher pitch than the normal utterance speed and pitch that the user has registered in advance. In this case, the utterance suitable for the situation becomes possible, and communication with rich expressiveness can be realized.
  • the surrounding sound may be picked up by the microphone 22, a frequency component that is easily transmitted to the surroundings may be analyzed from the sound spectrum of the picked-up sound, and the sentence may be read out with the sound including the analyzed frequency component.
  • the sound emitted from the speaker 23 can be easily heard.
  • the speech function is realized by the processing of steps S100 to S160.
  • the output unit 28 can synthesize the voice with the user's voice using a known voice synthesis technique, so that a more natural conversation can be realized.
  • step S120 in FIG. 26 the context of the sentence is analyzed from the sequence of characters selected so far by the user, and word candidates that the user thinks to select from the context of the sentence are displayed in advance. It may be.
  • Such a word display method may be referred to as “predictive display”.
  • the language model unit 48 stores the characters specified in the process of step S120 and the sequence of characters selected by the user so far, which are stored in a predetermined area of the memory 204 in the process of step S130. Get information and. And the language model part 48 grasps
  • the device 14 can convert a sentence created by the user using the movement of the eyeball into a voice, so that it can be accurately performed in a shorter time and in comparison with a conversation or writing through a sign language interpreter. , Can communicate the intention of the speaker to the other party.
  • the 4th Embodiment demonstrates the form which performs a part of process performed by the device 10, 12, and 14 using a cloud service.
  • the cloud service is a service that provides the processing capability of an information processing apparatus such as a computer via a network.
  • FIG. 27 is a diagram illustrating an example of a wearable device according to the fourth embodiment.
  • the wearable device 16 (hereinafter referred to as the device 16) is a glasses-type terminal that further includes a communication device 25 in the device 14 according to the third embodiment.
  • the installation location of the communication apparatus 25 in the device 16 is an example, and is not limited to the position of the temple 18.
  • the communication device 25 includes an interface for connecting to a network such as the Internet, for example, and is a device that transmits and receives data between the device 16 and the information processing device 52 connected to the network 50 as shown in FIG. is there.
  • the communication standard used in the communication device 25 is not limited, and various communication standards such as LTE (Long Term Evolution), WiFi (The Standard for Wireless Fidelity), Bluetooth, and the like can be used.
  • LTE Long Term Evolution
  • WiFi The Standard for Wireless Fidelity
  • Bluetooth The Standard for Wireless Fidelity
  • the communication device 25 can be connected to the network 50 wirelessly. Therefore, here, as an example, the connection form of the communication device 25 to the network 50 is described as being wireless.
  • the information processing apparatus 52 may include a plurality of computers.
  • FIG. 29 is a functional block diagram showing functions of the device 16 shown in FIG.
  • the voice recognition unit 34 is replaced with an acoustic analysis unit 40 and wireless.
  • the communication unit 38 is added and connected to the acoustic analysis unit 40.
  • FIG. 30 is a functional block diagram illustrating functions of the information processing device 52.
  • the information processing device 52 includes a recognition decoder unit 42, an acoustic model unit 44, a dictionary 46, a language model unit 48, and a communication unit 54.
  • the communication unit 54 has a function for transmitting and receiving data to and from the device 16 by connecting to the network 50.
  • the connection form of the communication unit 54 to the network 50 may be either wired or wireless.
  • the acoustic analysis unit 40 is left in the device 16, and the recognition decoder unit 42, the acoustic model unit 44, The dictionary 46 and the language model unit 48 are transferred to the information processing device 52.
  • the acoustic analysis unit 40, the recognition decoder unit 42, the acoustic model unit 44, the dictionary 46, and the language model unit 48 are connected by the wireless communication unit 38 and the communication unit 54, and the voice recognition unit 34 is connected via the network 50. It takes the form using the cloud service to function as.
  • FIG. 31 shows a configuration diagram when each functional unit of the device 16 is realized by a computer.
  • the CPU 202 reads out the display control program 220B from the storage unit 206, expands it in the memory 204, and executes the display control program 220B, whereby the computer 200B operates as each functional unit of the device 16 shown in FIG. Then, when the CPU 202 executes the wireless communication process 232, the computer 200B operates as the wireless communication unit 38 illustrated in FIG. Further, when the CPU 202 executes the acoustic analysis process 225, the computer 200B operates as the acoustic analysis unit 40 illustrated in FIG.
  • each functional unit of the device 16 can be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC or the like.
  • FIG. 32 shows a configuration diagram when the information processing apparatus 52 is realized by a computer.
  • the computer 300 includes a CPU 302, a memory 304, and a nonvolatile storage unit 306.
  • the CPU 302, the memory 304, and the nonvolatile storage unit 306 are connected to each other via a bus 308.
  • the computer 300 includes a communication IF 29 and an I / O 310, and the communication IF 29 and the I / O 310 are connected to the bus 308.
  • the storage unit 306 can be realized by an HDD, a flash memory, or the like.
  • the storage unit 306 stores a speech recognition program 320 for causing the computer 300 to function as each functional unit of the information processing apparatus 52 shown in FIG.
  • the speech recognition program 320 stored in the storage unit 306 includes a communication process 322, a recognition decoder process 324, an acoustic model process 326, and a language model process 328.
  • the CPU 302 reads out the voice recognition program 320 from the storage unit 306, expands it in the memory 304, and executes each process of the voice recognition program 320.
  • the CPU 302 reads out the voice recognition program 320 from the storage unit 306, expands it in the memory 304, and executes the voice recognition program 320, whereby the computer 300 operates as each functional unit of the information processing apparatus 52 shown in FIG. Specifically, when the CPU 302 executes the communication process 322, the computer 300 operates as the communication unit 54 illustrated in FIG. Further, when the CPU 302 executes the recognition decoder process 324, the computer 300 operates as the recognition decoder unit 42 shown in FIG. Further, when the CPU 302 executes the acoustic model process 326, the computer 300 operates as the acoustic model unit 44 illustrated in FIG. Further, when the CPU 302 executes the language model process 328, the computer 300 operates as the language model unit 48 shown in FIG.
  • the CPU 302 expands the dictionary data included in the dictionary storage area 240 in the memory 304, so that the computer 300 includes the dictionary 46 shown in FIG.
  • Each functional unit of the information processing apparatus 52 can be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC or the like.
  • the flow of the audio subtitle processing, status notification processing, and speech processing in the device 16 is the same as that except that the device 16 performs speech recognition processing, speech type identification processing, and speech processing in cooperation with the information processing apparatus 52. This is the same as the flow of each process described so far.
  • the device 16 performs the process of step S400 in the sound analysis unit 40 in the voice recognition process illustrated in FIG. 7, and notifies the wireless communication unit 38 of the acquired time series data of the acoustic spectrum.
  • the wireless communication unit 38 transmits the time-series data of the acoustic spectrum received from the acoustic analysis unit 40 to the information processing device 52 on the network 50 via the wireless communication IF 27.
  • the information processing device 52 When the information processing device 52 receives the time-series data of the acoustic spectrum, the information processing device 52 performs the processing of steps S401 to S406 in the speech recognition processing shown in FIG. At this time, in step S406, the recognition decoder unit 42 notifies the communication unit 54 of the utterance content of the speaker who has been subtitled in the process of step S404. Then, the communication unit 54 transmits the utterance content of the uttered speaker to the sound source position specifying unit 32 of the device 16 via the communication IF 29.
  • the device 16 performs the process of step S400 in the sound analysis unit 40 in the sound type identification process illustrated in FIG. 10, and transmits the acquired time-series data of the sound spectrum to the information processing device 52.
  • the information processing device 52 executes the process of step S408 in the voice type specifying process shown in FIG. 10 and transmits the type of voice specified from the acoustic spectrum to the device 16.
  • the device 16 when the device 16 performs the prediction display in the speech process, the information of the character sequence specified by the process in step S120 of FIG. Is transmitted to the information processing apparatus 52. Then, the language model unit 48 of the information processing apparatus 52 selects word candidates in accordance with the context flow from the specified character and information on the arrangement of the characters so far, and transmits the selected word candidate to the device 16. That's fine.
  • the reason why the device 16 performs voice recognition using the cloud service in this way is to reduce the data processing amount processed by the device 16 from the data processing amount processed by the devices 10, 12, and 14.
  • wearable devices represented by the device 16 and the like are assumed to be worn on the body and used, potential needs to be as light and compact as possible. Therefore, components such as the CPU 202 and the memory 204 built in the device tend to be as light and small as possible. However, as components become lighter and smaller, performance such as processing capacity and storage capacity often decreases, and performance that can be realized by a single device may be limited.
  • the information processing apparatus 52 by providing the information processing apparatus 52 with the recognition decoder unit 42, the acoustic model unit 44, the dictionary 46, and the language model unit 48, the data processing amount in the device 16 is reduced, and the device 16 light weight and downsizing can be realized.
  • the information processing device 52 since there are no restrictions on the specifications such as the processing performance, weight and size of the information processing device 52, the information processing device 52 includes components with higher performance than components such as the CPU 202 and the memory 204 that can be incorporated in the device 16. Can be used. Therefore, as compared with the devices 10, 12, and 14, the acoustic spectrum and the amount of words that can be registered in the dictionary 46 are increased, and high-speed speech recognition is possible. As a result, since the time required to specify the type of sound collected by the microphone 22 and the direction in which the sound is generated is shortened, the device 16 displays icons and subtitles as compared to the devices 10, 12, and 14. Can be shortened. In addition, the device 16 can improve the accuracy of specifying the type of sound and the direction in which the sound is generated, as compared with the devices 10, 12, and 14.
  • the information processing apparatus 52 performs the voice recognition processing of the plurality of devices 16, for example, by updating the acoustic spectrum, words, and the like registered in the dictionary 46 of the information processing apparatus 52, the plurality of devices 16.
  • the dictionaries 46 used by can be updated collectively.
  • the devices 10, 12, 14, and 16 communicate with the surrounding people to the hearing impaired person through the audio captioning process and the speech process. Function can be provided.
  • the device according to each embodiment can provide a hearing impaired person with a function of grasping a surrounding situation through a situation notification process.
  • the display control programs 220, 220A, and 220B, and the speech recognition program 320 are stored (installed) in the storage unit in advance.
  • the display control programs 220, 220A, and 220B and the speech recognition program 320 according to the disclosed technology can be provided in a form recorded on a computer-readable recording medium.
  • the display control programs 220, 220A, and 220B and the speech recognition program 320 according to the disclosed technology are provided in a form recorded in a portable recording medium such as a CD-ROM, a DVD-ROM, and a USB memory. It is also possible.
  • the display control programs 220, 220A, and 220B and the speech recognition program 320 according to the disclosed technology can be provided in a form recorded in a semiconductor memory such as a flash memory.
  • a camera that captures an image around the user may be attached to the device according to each embodiment.
  • a position of a predetermined object such as a person or a vehicle that can be a sound generation source is detected from an image captured by a camera using a known image recognition process.
  • the position of the sound generation source can be specified by combining the position of the object detected from the camera image and the information on the sound generation direction specified from the difference in the arrival time of the sound signal.
  • the direction of sound generation identified from the difference in the arrival time of the sound signal can be corrected in accordance with the position of the object, so that the direction of sound generation is simply specified from the difference in the arrival time of the sound signal.
  • the position of the sound source can be specified with high accuracy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Eyeglasses (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 ウェアラブルデバイスは、マイクと、ディスプレイと、を備える。また、ウェアラブルデバイスは、マイクにより収音された音声情報を解析して、取得した音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部を備える。

Description

ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
 開示の技術は、ウェアラブルデバイス、表示制御方法、及び表示制御プログラムに関する。
 近年、情報処理装置の小型化及び軽量化に伴い、身につけて持ち運ぶことができるウェアラブルデバイスの開発が進められている。
 ウェアラブルデバイスの一例としては、例えば頭部に装着し、表示装置から出力された画像を眼鏡部に設けられたハーフミラーに投影することで、視野に入る景色に画像を重ねて表示するヘッドマウントディスプレイが開示されている。
特開平11-136598号公報
 ウェアラブルデバイスは体に装着されることから、その存在を意識せず、生活の様々な場面で利用することが可能である。また、ウェアラブルデバイスの操作も、装着位置に応じた操作方法が取り入れられるため、ウェアラブルデバイスは体に何らかの障がいを有する障がい者のコミュニケーションツールとして適した装置である。
 しかしながら、従来のウェアラブルデバイスでは、健常者の利用を前提としたものが多く、例えば、聴覚障がい者の積極的な利用を促すための機能が実現されているとは言い難い状況である。
 一つの側面として、開示の技術は、所定の呼びかけフレーズ以外の音声に起因する表示の煩雑さを抑制するための装置を提供することを目的とする。
 一つの態様では、開示の技術のウェアラブルデバイスは、マイクと、ディスプレイと、を備える。また、ウェアラブルデバイスは、マイクにより収音された音声情報を解析して、取得した音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部を備える。
 一つの側面として、開示の技術は、所定の呼びかけフレーズ以外の音声に起因する表示の煩雑さを抑制するための装置を提供することができる。
第1実施形態に係るデバイスの一例を示す図である。 第1実施形態に係るデバイスの機能を例示する機能ブロック図である。 人の声を示すアイコンの一例を示す図である。 ドアチャイムの音を示すアイコンの一例を示す図である。 着信音を示すアイコンの一例を示す図である。 サイレンの音を示すアイコンの一例を示す図である。 車両のクラクションを示すアイコンの一例を示す図である。 雷鳴の音を示すアイコンの一例を示す図である。 車両の走行音を示すアイコンの一例を示す図である。 注意を要する音を示すアイコンの一例を示す図である。 ユーザが登録した音を示すアイコンの一例を示す図である。 音声認識部の機能を例示する機能ブロック図である。 第1実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。 音声字幕化処理の流れの一例を示すフローチャートである。 音声認識処理の流れの一例を示すフローチャートである。 字幕の表示例を示す図である。 状況通知処理の流れの一例を示すフローチャートである。 音声種類特定処理の流れの一例を示すフローチャートである。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 アイコンの表示例を示す図である。 音声字幕化処理の流れの一例を示すフローチャートである。 字幕の表示例を示す図である。 第2実施形態に係るデバイスの一例を示す図である。 第2実施形態に係るデバイスの機能を例示する機能ブロック図である。 第2実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。 音声字幕化処理の流れの一例を示すフローチャートである。 状況通知処理の流れの一例を示すフローチャートである。 第3実施形態に係るデバイスの一例を示す図である。 第3実施形態に係るデバイスの機能を例示する機能ブロック図である。 発話処理の流れの一例を示すフローチャートである。 第4実施形態に係るデバイスの一例を示す図である。 デバイスと情報処理装置との接続形態の一例を示す図である。 第4実施形態に係るデバイスの機能を例示する機能ブロック図である。 情報処理装置の機能を例示する機能ブロック図である。 第4実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。 情報処理装置をコンピュータで実現する場合の構成の一例を示す図である。
 以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。
(第1実施形態)
 図1は、第1実施形態に係るウェアラブルデバイスの一例を示す図である。
 図1に示すように、ウェアラブルデバイス10は、眼鏡の形状を模した眼鏡型端末であり、処理装置20、マイク22、及びプロジェクタ24を含む。なお、以降では、ウェアラブルデバイス10を単にデバイス10と表記する場合がある。
 マイク22は、例えばデバイス10の左右両方のテンプル18の部分に各々内蔵され、デバイス10の周囲の音声を収音する。マイク22の各々は、あらゆる方向で発生する音声を収音することができるように、例えば全指向性マイクが用いられる。なお、全指向性マイクは無指向性マイクとも称される場合がある。
 プロジェクタ24は、例えばデバイス10のフレームのうち、左右の透明部材(例えばレンズ)19の上方に位置する部分に各々内蔵され、画像を表示する。具体的には、プロジェクタ24は赤、緑、青の半導体レーザ及び鏡を含み、光の3原色の半導体レーザの各々から照射されるレーザ光を鏡で反射させ、各々のレーザ光を瞳孔を通じて網膜上で2次元状に走査させることで、画像を表示する。
 なお、プロジェクタ24で用いられるレーザ光の強度は約150nWであり、これは「レーザ製品の放射安全基準」を定めたJIS(International Organization for Standardization) C 6802におけるクラス1の条件を満たす強度である。なお、JIS C 6802におけるクラス1とは、100秒間レーザ光を瞬きなしで見続けても網膜に損傷を生じないとの条件を満たす安全基準であり、レーザ光の照射に関して特別な安全対策が不要なレベルとなっている。
 こうした網膜走査型のプロジェクタ24は、画像の表示に透過型ディスプレイを用いる場合と比較して、目に与える負担が少なく、且つ、より鮮明な画像を表示することができる。ここで透過型ディスプレイとは、例えば透明部材19に重ねて設けられる透明のディスプレイであり、ディスプレイの向こう側の景色に、ディスプレイの画像を重ね合わせて表示することができる構造を有する。透過型ディスプレイとしては、例えば液晶、又は有機EL(Electroluminescence)等を用いたものが知られている。
 なお、第1実施形態に係るプロジェクタ24を網膜走査型として説明したが、プロジェクタ24は網膜投影型であってもよい。網膜投影型とは、画素毎にレーザ素子を配置し、表示の対象である画像中の画素に対応した各々のレーザ素子から瞳孔を通じて網膜にレーザ光を照射することで、網膜上に画像を投影する方式である。また、プロジェクタ24の替わりに透過型ディスプレイを用いてもよい。なお、プロジェクタ24は、ユーザの網膜にレーザを照射して、ユーザの視野上の位置に画像を表示することから、開示の技術のディスプレイにはユーザの網膜も含めることができる。
 一方、処理装置20は、例えばデバイス10のテンプル18に内蔵され、マイク22による収音処理、及びプロジェクタ24による表示処理を実行する。なお、図1では処理装置20がデバイス10の左側のテンプル18に内蔵される例を示したが、処理装置20の配置場所に制限はなく、例えば処理装置20を分割し、デバイス10の複数の場所に分散して配置するようにしてもよい。
 図2は、図1に示した第1実施形態に係るデバイス10の機能を示す機能ブロック図である。
 デバイス10は、入力部26、出力部28、及び制御部30を含む。
 入力部26には、複数のマイク22で収音された音声を表す電気信号が各々入力される。そして、入力部26は、入力された各々の電気信号を増幅し、デジタルの音声信号へ変換して制御部30へ出力する。この際、入力部26は、音声信号を意識的に遅延させることなく制御部30へ出力する。なお、以降では音声を表すデジタルの音声信号を、単に音声信号と称す。
 制御部30は、入力部26を制御して、音声信号のサンプリングタイミングを指示する。また、制御部30は、例えば音源位置特定部32及び音声認識部34を含み、入力部26から通知される音声信号を用いて、音声の発生方向を特定すると共に、音声信号が表す音声の種類を識別する。更に、制御部30は、音声の種類が人の声である場合、音声信号からどのような言葉が発せられたかを解析して、発話内容を文字に変換する処理を実行する。そして、制御部30は、後述する出力部28を制御して、音声の種類を表す情報を音声の発生方向に表示させる。
 音源位置特定部32は、複数の音声信号に基づいてデバイス10を基準とした音声の発生方向を特定する。具体的には、音源位置特定部32は、デバイス10に内蔵される2つのマイク22の各々から入力される音声信号の入力タイミングのずれ、又は音声信号の大きさの差から音の入射方向を算出し、音の発生方向を特定する。なお、ここでは一例として、音源位置特定部32は、デバイス10に内蔵される2つのマイク22の各々から入力される音声信号の入力タイミングのずれから音声の入射方向を算出するものとして説明する。
 また、音源位置特定部32は、音声信号を音声認識部34へ出力して、音声の種類及び発話内容の解析を音声認識部34へ依頼し、音声認識部34から解析結果を取得する。
 音声認識部34は、音源位置特定部32から入力された音声信号を用いて、音声の種類及び発話内容の解析を行う。ここで音声の種類とは、発せられた音声が何の音声かを表す情報であり、例えば人の声、車両の走行音、及びインターフォンの呼び出し音等、具体的な種類を表すものである。
 そして、制御部30は、プロジェクタ24の表示領域のうち、音源位置特定部32で特定した音声の発生方向に対応する位置に、音声認識部34で識別した音声の種類を示すアイコン及び発話内容の少なくとも一方を表示するよう出力部28を制御する。
 出力部28は、プロジェクタ24を用いて、制御部30によって指定された位置に指定されたアイコン及び発話内容の少なくとも一方を表示する。
 なお、図3A~図3Iに、音声認識部34で識別する音声の種類を示すアイコン(ピクトグラムともいう)の一例を示す。図3Aは人の声、図3Bはドアチャイムの音、図3Cは携帯電話等の着信音、図3Dはサイレン、図3Eは車両のクラクション、図3Fは雷鳴、図3Gは車両の走行音を表すアイコンの一例である。また、図3Hはユーザの死角から発せられる何らかの注意を要する音声を表すアイコン(アラートマーク)の一例であり、図3Iはユーザが事前に登録した音声の種類を表すアイコンの一例である。
 図3Iで示すアイコンのように、デバイス10のユーザ(以降、単に「ユーザ」と称す)は、音声の種類に対して、形、色、及び大きさを自分でカスタマイズしたアイコンを出力部28に登録することができる。
 なお、出力部28で表示可能なアイコンは、図3A~図3Iに示すアイコンに限定されないことは言うまでもない。出力部28は、音声認識部34において識別可能な音声の種類に対応したアイコンを表示することができる。
 また、図3Hに示したアイコンはユーザに注意を促すアイコンであることから、特にアラートマークという。アラートマークは、ユーザに注意を促すことができればどのようなデザインであってもよいが、例えば図3Hに示すように、三角形の縁を黒で囲い、内部に警告の種別(図3Hの例では感嘆符)を示すものが使用される。
 次に、図4を用いて音声認識部34の動作について説明する。
 図4に示すように、音声認識部34は、例えば音響分析部40、認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48を含む。
 音響分析部40は、例えば予め定めた時間間隔毎に音声信号の周波数分析を行い、周波数成分毎の音声の大きさを示す音響スペクトルの時系列データを取得する。
 認識デコーダ部42は、音響分析部40で取得した音響スペクトルの時系列データから、音声信号で表される音声の種類を特定すると共に、音声信号で表される音声の種類が人の声である場合、音声信号から発話内容を認識して文字に変換する機能を有する。その際認識デコーダ部42は、音響モデル部44、辞書46、及び言語モデル部48と連携して処理を進める。
 音響モデル部44は、辞書46に予め登録される音声の様々な種類の音響スペクトルと、音響分析部40で取得した音響スペクトル(認識対象スペクトル)と、の特徴量を比較して、辞書46の中から認識対象スペクトルに類似する音響スペクトルを選択する。そして、音響モデル部44は、選択した音響スペクトルに対応する音声の種類を、認識対象スペクトルで表される音声の種類とする。
 更に、音響モデル部44は、認識デコーダ部42の指示に基づいて、認識対象スペクトルの音声の種類が人の声である場合、認識対象スペクトルに対して発話音を割り当てる。具体的には、音響モデル部44は、辞書46に予め登録される発話音を表す音響スペクトルの特徴量と、認識対象スペクトルの特徴量と、を比較して、辞書46の中から認識対象スペクトルと最も類似する発話音の音響スペクトルを選択する。
 一方、言語モデル部48は、認識デコーダ部42の指示に基づいて、音響モデル部44によって得られた認識対象スペクトルに対応する発話音の並びを、違和感のない自然な文章に変換する。例えば辞書46に予め登録される単語の中から、統計モデルに従って発話音の流れに沿った単語を選択すると共に、単語と単語とのつながり及び単語の位置を判断して自然な文章に変換する。
 なお、音響モデル部44及び言語モデル部48に用いられる言語処理モデルに制限はなく、例えば隠れマルコフモデル等の公知の言語処理モデルを適用することができる。
 次に、デバイス10の各機能部をコンピュータで実現する場合の構成図を図5に示す。
 コンピュータ200は、CPU202、メモリ204、及び不揮発性の記憶部206を含む。CPU202、メモリ204、及び不揮発性の記憶部206は、バス208を介して互いに接続される。また、コンピュータ200は、マイク22及びプロジェクタ24を備え、マイク22及びプロジェクタ24はバス208に接続される。また、コンピュータ200は、記録媒体に対して読み書きするためのI/O210を備え、I/O210もバス208に接続される。なお、記憶部206はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。
 記憶部206には、コンピュータ200を図2に示すデバイス10の各機能部として機能させるための表示制御プログラム220が記憶される。記憶部206に記憶される表示制御プログラム220は、入力プロセス222、音源位置特定プロセス224、音声認識プロセス226、及び出力プロセス228を含む。
 CPU202は、表示制御プログラム220を記憶部206から読み出してメモリ204に展開し、表示制御プログラム220が有する各プロセスを実行する。
 CPU202が、表示制御プログラム220を記憶部206から読み出してメモリ204に展開し、表示制御プログラム220を実行することで、コンピュータ200が図2に示すデバイス10の各機能部として動作する。具体的には、CPU202が入力プロセス222を実行することで、コンピュータ200が図2に示す入力部26として動作する。また、CPU202が音源位置特定プロセス224を実行することで、コンピュータ200が図2に示す音源位置特定部32として動作する。また、CPU202が音声認識プロセス226を実行することで、コンピュータ200が図2に示す音声認識部34として動作する。また、CPU202が出力プロセス228を実行することで、コンピュータ200が図2に示す出力部28として動作する。なお、CPU202が音源位置特定プロセス224及び音声認識プロセス226を実行することで、コンピュータ200が図2に示す制御部30として動作する。
 また、CPU202が、辞書格納領域240に含まれる辞書データをメモリ204に展開することで、コンピュータ200が図4に示す辞書46を含む。
 なお、デバイス10の各機能部は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
 次に、第1実施形態に係るデバイス10の作用について説明する。第1実施形態に係るデバイス10は、デバイス10の起動後に音声字幕化処理を実行する。音声字幕化処理とは、発話者の発話内容を文字に変換(字幕化)し、字幕化された文字を表示するようにプロジェクタ24から網膜にレーザを照射することで、発話者の発話内容を視野と重ねて表示する処理である。
 図6は、第1実施形態に係るデバイス10の音声字幕化処理の流れの一例を示すフローチャートである。
 まず、ステップS10において、入力部26は、字幕化開始指示を受け付けたか否かを判定する。字幕化開始指示は、例えばデバイス10に設けられた図示しないボタン等が操作されることで指示される。否定判定の場合、すなわち字幕化開始指示を受け付けていない場合には、字幕化開始指示を受け付けるまでステップS10の処理を繰り返す。一方、肯定判定の場合、すなわち字幕化開始指示を受け付けた場合には、ステップS20へ移行する。
 ステップS20において、入力部26は、左右各々のテンプル18に内蔵されたマイク22を通じて、デバイス10の周囲で発生する音声の収音を行う。そして、入力部26は、何らかの音声が発生したか否かを判定し、否定判定の場合には、何らかの音声が収音されるまでステップS20の処理を繰り返す。一方、肯定判定の場合には、各々のマイク22で収音した各々の音声の音声信号を音源位置特定部32に出力して、ステップS30へ移行する。
 なお、何らかの音声が発生したか否かの判定方法としては、例えば少なくとも一方のマイク22で収音した音声が予め定めた音声レベル以上である場合に、何らかの音声が発生したと判定する方法等が用いられるが、これに限定されるものではない。
 ステップS30において、音源位置特定部32は、入力部26から通知された各々の音声信号の到達時間のずれから、デバイス10に対する音声の入射角を算出する。例えば、音源位置特定部32は、マイク22の各々から入力される音声信号の入力タイミングのずれに対して、デバイス10の位置を原点とした3次元座標空間における入射角を対応させた入射角算出テーブルを参照して、音の入射角を算出する。なお、音源位置特定部32は、マイク22の各々から入力される音声信号の大きさの差に対して、デバイス10の位置を原点とした3次元座標空間における入射角を対応させた入射角算出テーブルを参照して、音の入射角を算出してもよい。
 なお、音声信号の到達時間のずれの組み合わせ、又は音声信号の大きさの差の組み合わせに対応する入射角は、デバイス10の実機による実験や、デバイス10の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、入射角算出テーブルは、例えばメモリ204の予め定めた領域に予め記憶される。
 このように、音源位置特定部32は、音声信号の到達時間のずれから音声の発生方向を特定するため、各々のマイク22の間隔をできるだけ離した方が、音声の発生方向を精度よく特定することができる。従って、デバイス10における各々のマイク22の位置を、デバイス10の高さ方向、前後方向、及び左右方向の各々の方向にずらして配置することが好ましい。ここで、デバイス10の高さ方向とは、デバイス10を頭部に装着した際における上下方向をいい、デバイス10の前後方向とは、透明部材19における光の入射面と直交する方向をいう。また、デバイス10の左右方向とは、デバイス10の高さ方向及び前後方向とそれぞれ直交する方向をいう。
 そして、音源位置特定部32は、音声認識部34に音声信号を通知すると共に、音声認識部34に音声信号で表される発話内容の字幕化を指示する。
 ステップS40において、音声認識部34は音声認識処理を実行して、音声信号で表される発話内容を字幕化する。
 図7は、ステップS40の処理で実行される音声認識処理の流れの一例を示すフローチャートである。
 まず、ステップS400において、音響分析部40は、例えば予め定めた時間間隔毎に音声信号の周波数分析を行い、周波数成分毎の音声の大きさを示す音響スペクトルの時系列データを取得する。
 次に、ステップS401において、認識デコーダ部42は、ステップS400の処理で取得した音響スペクトル、すなわち認識対象スペクトルの時系列データを音響モデル部44に通知する。そして、認識デコーダ部42は、認識対象スペクトルに対応する音声の種類を特定するよう、音響モデル部44に指示する。なお、音響モデル部44における音声の種類の特定方法については後ほど説明する。認識デコーダ部42は、音響モデル部44において特定された認識対象スペクトルに対応する音声の種類が人の声か否かを判定し、否定判定の場合には、判定結果を音源位置特定部32に通知すると共に音声字幕化処理を終了する。一方、肯定判定の場合にはステップS402へ移行する。
 ステップS402において、認識デコーダ部42は、人の声と特定された認識対象スペクトルに発話音を割り当てるよう、音響モデル部44に指示する。
 音響モデル部44は、辞書46に予め登録される発話音を表す音響スペクトルと、認識対象スペクトルと、の特徴量を比較して、辞書46の中から認識対象スペクトルに最も類似する発話音の音響スペクトルを選択する。こうして、音響モデル部44は認識対象スペクトルに発話音を割り当て、割り当て結果を認識デコーダ部42に通知する。
 ステップS404において、音響モデル部44から発話音の割り当て結果が通知されると、認識デコーダ部42は、発話音の割り当て結果を言語モデル部48に通知する。そして、認識デコーダ部42は、発話音の割り当て結果を、違和感のない自然な文章に変換するよう、言語モデル部48に指示する。
 言語モデル部48は、例えば辞書46に予め登録される単語の中から、統計モデルに従って発話音の流れに沿った単語を選択すると共に、単語と単語とのつながり及び単語の位置を確率的に判断して自然な文章に変換する。こうして、言語モデル部48は、認識対象スペクトルに対応する発話音の並びを違和感のない自然な文章に変換し、変換結果を認識デコーダ部42に通知する。
 ステップS406において、認識デコーダ部42は、ステップS404の処理で字幕化された発話者の発話内容を、音源位置特定部32に通知する。また、認識デコーダ部42は、音声信号で表される音声の種類は人の声であるとの判定結果を音源位置特定部32に通知する
 以上、ステップS400~S406の各処理によって、図6に示すステップS40における音声認識処理が実行される。
 そして、図6に示すステップS41において、音源位置特定部32は、ステップS40の音声認識処理で特定された音声の種類が人の声か否かを判定し、肯定判定の場合にはステップS50へ移行する。一方、否定判定の場合には、音声の種類が人の声でないことから、以下に説明するステップS50の処理を行わずにステップS60へ移行する。
 ステップS50において、音源位置特定部32は、マイク22で収音した音声の種類が人の声であることから、ステップS30の処理で特定した音声の発生方向に、ステップS40の処理で取得した、字幕化された発話内容を表示するように出力部28に指示する。
 出力部28は、音源位置特定部32から表示指示を受け付けると、プロジェクタ24を用いて、視野内の音声の発生方向に対応する位置に、字幕化された発話内容を表示する。
 そして、ステップS60において、入力部26は、字幕化終了指示を受け付けたか否かを判定する。字幕化終了指示は、例えば字幕化開始指示と同様に、デバイス10に設けられた図示しないボタン等が操作されることで指示される。否定判定の場合にはステップS20へ移行し、引き続きステップS20~S60の処理を繰り返すことで音声字幕化処理を継続する。一方、肯定判定の場合には、図6に示す音声字幕化処理を終了する。
 このようにして、デバイス10は、マイク22で収音した音声に人の声が含まれる場合に、音声に対応した字幕の表示を行う。
 なお、出力部28では、表示してから所定時間経過した字幕を消す、又は新しい字幕を表示するタイミングで以前表示した字幕を消去する等の処理を行うことで、字幕の表示を更新する。
 図8は、図6に示す音声字幕化処理を実行した際に、ユーザの視野に表示される字幕の例を示した図である。
 図8に示すように、ユーザの視野には、透明部材19を通して見える景色にプロジェクタ24から照射される字幕が重ねられた画像が表示される。この際、字幕は音声の発生方向に表示されるため、聴覚障がい者であっても誰がどのような発話をしたか理解することができる。
 なお、図8に示すように、字幕を吹き出しの内部に表示するようにしてもよい。この場合、単に字幕だけを音声の発生方向に対応する位置に表示する場合と比較して、誰の発話であるか把握しやすくすることができる。
 また、音声認識部34で、発話者の音響スペクトルの特徴を記憶し、記憶した音響スペクトルと、認識対象スペクトルと、を比較することで発話者を特定し、発話者毎に字幕の色を変えて表示してもよい。また、男性の声と女性の声とでは、声に含まれる周波数成分が異なることを利用して発話者の性別を判定し、例えば男性の声と判定される場合には黒の字幕、女性の声と判定される場合には赤の字幕というように、字幕の色を変えて表示してもよい。
 また、音声認識部34で、認識対象スペクトルから音声の大きさを算出し、音声の大きさに応じて字幕の文字の大きさを変えるようにしてもよい。例えば、音声の大きさが大きくなるに従って、当該音声に対応する字幕の文字の大きさを大きくすることで、ユーザは視覚的に音声の大きさを把握することができる。
 また、図6のステップS10及びステップS60の処理で説明したように、ユーザは自身の判断により、音声字幕化処理の開始及び終了をデバイス10に指示することができる。従って、会議中は音声字幕化処理を開始させ、作業に集中したい時は音声字幕化処理を終了させる等、ユーザの状況に応じて音声字幕化処理の動作を切り替えることができ、不必要な発話が字幕としてユーザの視野に表示される煩わしさを軽減することができる。
 更に、デバイス10の音声字幕化処理はユーザ周辺にいる他者の発話内容だけでなく、ユーザ自身の発話内容も字幕化できることができる。この場合、ユーザの音響スペクトルを予め辞書46に登録しておき、音声認識部34で認識対象スペクトルとユーザの音響スペクトルとの類似度を判定することで、発話者がユーザか否か判定することができる。
 ユーザの発話内容を表す字幕は、他者の発話内容を表す字幕と異なり、例えば図8に示すように、視野の下部に設けられた領域81に表示される。聴覚障がい者は自身の発声を確認し難いため、聴覚障がい者によって発せられる言葉のイントネーションや発音が健常者の発声と異なる場合あり、意図する内容が相手に伝わらない可能性が考えられる。
 しかし、デバイス10ではユーザが発した言葉を字幕化して領域81に表示することができるため、ユーザが発した言葉が相手にどのように聞こえているか目で確認することができる。従って、ユーザは、より正しい発音に近づけるようにトレーニングすることができる。また、ユーザの発話内容を表す字幕は、他者の発話内容を表す字幕と異なる位置に表示されるため、自身が発した発話内容が確認しやすくなる。
 なお、ユーザは、例えば自身が発した発話内容の確認が不要な場合には、デバイス10の設定により、ユーザの発話内容を表す字幕を領域81に表示しないようにすることができる。ユーザの発話内容を表す字幕を表示しないことで、ユーザの視野に表示される字幕の数を抑制することができる。
 更に、第1実施形態に係るデバイス10は、デバイス10の起動後に状況通知処理を実行する。状況通知処理とは、ユーザの周囲で発生する音声の種類及び発生方向をユーザに通知する処理である。なお、ユーザの周囲で発生する音声は、ユーザに何らかの状況を通知する情報であることから、ユーザに対する「呼びかけ」と捉えることができる。
 図9は、第1実施形態に係るデバイス10の状況通知処理の流れの一例を示すフローチャートである。
 ステップS20及びステップS30では、図6に示す音声字幕化処理におけるステップS20及びステップS30の処理と同様の処理を行う。ただし、状況通知処理の場合、ステップS30において、音源位置特定部32は音声認識部34に音声信号で表される発話内容の字幕化を指示する替わりに、音声信号で表される音声の種類の特定を指示する。
 ステップS42において、音声認識部34は音声種類特定処理を実行して、音声信号で表される音声の種類を特定する。
 図10は、ステップS42の処理で実行される音声種類特定処理の流れの一例を示すフローチャートである。
 まず、ステップS400では、図7に示すステップS400の処理と同様の処理を行い、認識対象スペクトルの時系列データを取得する。
 次に、ステップS408において、認識デコーダ部42は、ステップS400の処理で取得した認識対象スペクトルの時系列データを音響モデル部44に通知する。そして、認識デコーダ部42は、認識対象スペクトルに対応する音声の種類を特定するよう、音響モデル部44に指示する。
 音響モデル部44は、辞書46に予め登録される音声の様々な種類の音響スペクトルと、認識対象スペクトルと、の特徴量を比較して、辞書46の中から認識対象スペクトルに類似する音響スペクトルを選択する。そして、音響モデル部44は、選択した音響スペクトルに対応する音声の種類を、認識対象スペクトルで表される音声の種類として特定し、特定結果を認識デコーダ部42に通知する。音響スペクトルの特徴量と認識対象スペクトルの特徴量の類似度は、例えば両者の特徴量が類似するに従って値が大きくなる数値で表され、例えば当該数値が予め定めた閾値以上の場合に、両者の特徴量が類似すると判定される。
 なお、認識対象スペクトルの特徴量が、辞書46に予め登録される何れの音声の音響スペクトルの特徴量とも類似しない場合には、音響モデル部44は、認識対象スペクトルに対応する音声の種類が特定できないとした特定結果を認識デコーダ部42に通知する。
 そして、認識デコーダ部42は、音響モデル部44から通知された特定結果を音源位置特定部32に通知する。
 以上、ステップS400及びステップS408の各処理によって、図9に示すステップS42における音声種類特定処理が実行される。
 そして、図9に示すステップS43において、音源位置特定部32は、ステップS42の音声種類特定処理で特定された音声の種類の特定結果を参照し、マイク22で収音した音声の種類が特定されたか否かを判定する。肯定判定の場合にはステップS52へ移行し、否定判定の場合には、以下に説明するステップS52の処理を行わずにステップS62へ移行する。
 ステップS52において、音源位置特定部32は、ステップS30の処理で特定した音声の発生方向に、ステップS42の処理で特定した音声の種類を示すアイコンを表示するように出力部28に指示する。
 出力部28は、音源位置特定部32から表示指示を受け付けると、指定された音声の種類に対応するアイコンを、例えばメモリ204の予め定めた領域から取得する。そして、出力部28は、プロジェクタ24を用いて視野内の音声の発生方向に対応する位置に、アイコンを表示する。
 そして、ステップS62において、入力部26は、デバイス10の電源がオフされたか否かを判定する。電源のオンオフ状態は、例えばデバイス10に設けられた図示しないボタン等の状態によって取得することができる。否定判定の場合にはステップS20へ移行し、引き続きステップS20~S62の処理を繰り返すことで状況通知処理を継続する。一方、肯定判定の場合には、図9に示す状況通知処理を終了する。
 なお、出力部28では、表示してから所定時間経過したアイコンを消す、又は新しいアイコンを表示するタイミングで以前表示したアイコンを消去する等の処理を行うことで、アイコンの表示を更新する。
 図11は、図9に示す状況通知処理を実行した際の、ユーザの視野に表示されるアイコンの例を示した図である。なお、図11では説明の便宜上、一例としてユーザの視野の範囲を楕円形で示している。
 例えば、図11に示すように、視野上方を「前」、視野下方を「後」、視野右方を「右」、及び視野左方を「左」に割り当てた際、ユーザの右後方から車両の走行音が聞こえる場合には、出力部28は視野の右下に車両の走行音を表すアイコン70を表示する。これにより、ユーザは例えば左側によける等の行動をとることができる。
 しかしながら、ユーザの視野の外から音声がする場合、まず音声の発生方向をユーザに通知した方が、音声の種類を特定し、音声の発生方向に音声の種類に対応するアイコンを表示する場合に比べて、より早くユーザに注意喚起を促すことができる場合がある。
 従って、図9に示す状況通知処理において、ステップS30の処理で音声の発生方向が、後、右後、又は左後の何れかである場合に、ステップS42及びS43の処理を省略し、ステップS52において音声の発生方向に注意喚起を促すマークを表示してもよい。
 図12は、音声の発生方向が例えば後である場合に、ユーザに注意喚起を促すマークとして図3Hに示したアイコン71を表示する例を示す図である。
 なお、図11における音声の発生方向を表す「前」、「後」、「右」、及び「左」の各文字は、視野に重ねて表示するようにしてもよい。
 また、前後左右の方向を図11のように割り当てた際に、例えば何らかの音声がユーザの上から聞こえる場合には、アイコンの色を、音声の発生源がユーザの上下方向に位置することを表す色に変更した上で、視野に重ねて表示する。ここでは一例として、音声の発生源がユーザの上下方向に位置することを表す色を緑として説明するが、音声の発生源がユーザの上下方向に位置することを表す色として認識できる色であればよく、緑に限定されないことは言うまでもない。
 図13は、例えば立体交差等で車両の走行音がユーザの上方から聞こえる際のアイコンの表示例を示した図である。この場合、図13に示すように、図3Gで示される緑のアイコン72を視野の中央部に表示することで、上方から車両の走行音が聞こえることをユーザに通知する。仮に、車両の走行音がユーザの左前上方から聞こえる場合には、図3Gで示される緑のアイコン72が視野の左上に表示される。
 また、車両の走行音がユーザの下方からする場合には、図13に示すように、アイコン72を視野の中央部に表示した上で、アイコン72の明度、色相、及び彩度の少なくとも1つを変えることで、音声の発生源がユーザの下方にあることを表すようにすればよい。具体的には、音声の発生源がユーザの下方にある場合には、例えばアイコン72の明度、色相、及び彩度の少なくとも1つを、音声の発生源がユーザの上方にある場合と相違させる。
 また、ユーザの指示により、図13における方向の割り当てを変更するようにしてもよい。図14は視野上方を「上」、視野下方を「下」、視野右方を「右」、及び視野左方を「左」に割り当てた際のアイコンの表示例を示す図である。図14に示す方向の割り当てにおいて、車両の走行音がユーザの上方から聞こえる場合には、出力部28は視野の上方に図3Gで示すアイコン74を表示する。
 なお、音声の発生方向を図14のように割り当てた際、何らかの音声がユーザの前又は後から聞こえる場合には、対応するアイコンを視野の中央部に重ねて表示する。そして、音声の発生源がユーザの前にあるのか後ろにあるのかに応じて、アイコンの明度、色相、及び彩度の少なくとも1つを変化させる。
 また、音声認識部34で、認識対象スペクトルから音声の音量を算出し、音声の音量に応じてアイコンの表示サイズを変更するようにしてもよい。例えば、音声の音量が大きくなるに従って、前記音声の種類に対応するアイコンの表示サイズを大きくすることで、ユーザはアイコンに対応する音声の種類が発する音声の音量を視覚的に把握することができる。
 図15は、音声の音量に応じてアイコンの表示サイズを変化させる例について説明する図である。
 図11及び図15は共にユーザの右後方から車両の走行音が聞こえることを表している。しかし、図15に示す状況通知の場合、図15に示すアイコン76の表示サイズが図11に示すアイコン70の表示サイズより大きいことから、図11に示す状況よりもユーザに車両が接近していることをユーザに通知することができる。
 以上の説明では、音声の種類が同じであれば音声の発生方向の相違に関わらず同じアイコンを表示する例を示したが、音声の発生方向毎にアイコンを変えて表示するようにしてもよい。
 例えば、音声の種類が車両の走行音である場合を例に説明すると、音源位置特定部32から車両の走行音が前方から聞こえると通知された場合、出力部28は、図3Gの替わりに図16Aに示すような、車両を前方から見たアイコン60を表示する。一方、音源位置特定部32から車両の走行音が後方から聞こえると通知された場合、出力部28は、図16Bに示すような、車両を後方から見たアイコン62を表示する。
 また、出力部28は、音声の発生方向に応じて、アイコンの色を変えて表示するようにしてもよい。
 例えば、音声の種類が車両の走行音である場合を例に説明すると、音源位置特定部32から車両の走行音が前方から聞こえると通知された場合、出力部28は、図3Gに示すアイコンの色を例えば黄にして表示する。一方、音源位置特定部32から車両の走行音が後方から聞こえると通知された場合、出力部28は、図3Gに示すアイコンの色を例えば青にして表示する。
 このように、音声の種類が同じであっても、音声の発生方向に応じて異なるアイコンを表示する、又は、アイコンの色を変更して表示することで、ユーザに音声の発生方向をより正確に通知することができる。
 また、状況通知処理は、図6に示した音声字幕化処理と異なり、デバイス10の起動に伴って実行される。従って、例えば不意に呼びかけられた場合であっても、ユーザへの通知が可能である。また、音声認識部34において音声の種類を人の声と認識した場合に、音声字幕化処理を開始させる等の連携処理を行ってもよい。
 なお、状況通知処理では、デバイス10がユーザ自身の声を人の声と認識し、例えば、図3Aに示すアイコンを表示しないように設定することができる。ユーザ自身の声に対して状況通知処理を行わないように設定することで、ユーザは他者からの呼びかけに気づきやすくなる。
 また、ユーザはデバイス10に登録される音声の種類の中から、表示対象の音声の種類を予めデバイス10に設定しておき、マイク22で収音した音声の種類が表示対象の場合に、出力部28は音声の種類に対応したアイコンを表示するようにしてもよい。この場合、ユーザが表示対象に設定していない音声の種類に対応したアイコンは表示されないため、ユーザが表示を望まないアイコンがユーザの視野に表示される煩わしさを軽減することができる。
 また、アイコンの表示を抑制する他の形態として、音声の種類が人の声であっても、ユーザへの呼びかけでなければ図3Aに示すアイコンを表示しないようにしてもよい。具体的には、ユーザの名前、ニックネーム、及び「すみません」等のユーザを呼びかける特定のフレーズの音響スペクトルを辞書46に予め登録しておく。そして、音響モデル部44において、認識対象スペクトルで表される音声の種類が人の声であると特定された場合、音響モデル部44は、更に認識対象スペクトルにユーザを呼びかける音声の音響スペクトルが含まれるか判定する。そして、音響モデル部44は、判定結果を音源位置特定部32へ通知し、音源位置特定部32は、認識対象スペクトルにユーザを呼びかける音声の音響スペクトルが含まれる場合、図3Aに示すアイコンを表示するように出力部28へ指示する。
 または、音響モデル部44で認識対象スペクトルに発話音を割り当て、言語モデル部48で認識対象スペクトルに対応する発話音を文章に変換する。そして、言語モデル部48は変換した文章に対して形態素解析を実行し、マイク22で収音した音声の中にユーザへの呼びかけが含まれるか否かを判定するようにしてもよい。なお、形態素解析とは、文章を意味のある単語に区切り、文章の構成を解析する方法である。
 従って、認識対象スペクトルにユーザを呼びかける音声の音響スペクトルが含まれない場合には、ユーザの周囲で人の声が発せられても、図3Aに示すアイコンの表示が抑制される。
 更に、状況通知処理では、ユーザに音声の種類を通知する方法としてアイコンを利用したが、アイコンの替わりに文字を表示する形態、又はアイコンと文字を併用して表示する形態としてもよい。また、辞書46に特定の人物の声紋を登録しておき、音響モデル部44は、ユーザを呼びかける音声の音響スペクトルが、辞書46に登録される特定の人物の声紋の音響スペクトルと類似するか否かを判定する。そして、音響モデル部44は、判定結果を音源位置特定部32へ通知し、音源位置特定部32は、認識対象スペクトルで表される音声が辞書46に登録される特定の人物のものである場合に、図3Aに示すアイコンを表示するように出力部28へ指示してもよい。
 このように、聴覚障がい者が第1実施形態に係るデバイス10に搭載された音声字幕化処理を実行することで、手話通訳を介した会話や筆談に比べて、より短い時間に、且つ、正確に、発話者の発話内容を把握することができる。従って、周囲の人と気軽にコミュニケーションをとることができる。
 また、第1実施形態に係るデバイス10に搭載された状況通知処理を実行することで、周囲で聞こえる音声を視覚化することができる。従って、デバイス10を利用する聴覚障がい者は、生活の中で発生する様々な音声にいち早く気づくことが可能となり、素早い状況判断を行うことができる。
 更に、第1実施形態に係るデバイス10は、マイク22で収音した音声にユーザが予め定めた所定の音声が含まれる場合に、音声に対応したアイコン又は文字の表示を行う。従って、デバイス10を利用する聴覚障がい者は、所定の音声以外に起因する表示の煩雑さを抑制することができる。
 なお、辞書46に複数の国の言語の発話音に対する音響スペクトル及び単語を登録すると共に、言語モデル部48に複数の国の言語に関する言語処理モデルを備えることで、外国人の発話内容も認識することができる。この際、外国人の発話内容をユーザの母国語に翻訳してから表示するようにしてもよい。
(第1実施形態の変形例)
 第1実施形態では、デバイス10の音声字幕化処理及び状況通知処理により、字幕及びアイコン等を用いた音声に対応する情報の表示態様について説明したが、本変形例では、更に音声に対応する情報の表示順を表す例について説明する。
 図17は、デバイス10の音声字幕化処理において、字幕の表示順を表す処理を追加したフローチャートの一例である。
 図17に示す音声字幕化処理のフローチャートにおいて、図6に示す音声字幕化処理のフローチャートとの相違点は、ステップS22~S28、及びステップS54の各処理が追加された点である。
 ステップS54において、音源位置特定部32は、ステップS50の処理で出力部28に表示を指示した字幕に対してタイマを起動する。この際、音源位置特定部32は、所定時間経過後に例えば音源位置特定部32に通知がくるようにタイマを設定した上で、字幕毎にタイマを起動する。なお、タイマは例えばCPU202に内蔵されるタイマ機能を利用することができる。
 そして、ステップS20の判定処理で音声入力がないと判定された、所謂音声待ち状態において、音源位置特定部32はステップS22~S28の処理を実行する。
 まず、ステップS22において、音源位置特定部32は、出力部28に表示を指示した字幕があるか否かを判定し、否定判定の場合にはステップS20へ移行する。また、肯定判定の場合にはステップS24へ移行する。
 ステップS24において、音源位置特定部32は、表示を指示した各々の字幕に対して、字幕の輝度を所定値下げて表示するように、出力部28に指示する。
 更に、ステップS26において、音源位置特定部32は、ステップS54の処理で起動した各々のタイマのうち、所定時間経過を通知するタイマがあるか否かを判定する。そして、否定判定の場合にはステップS20へ移行し、肯定判定の場合にはステップS28へ移行する。
 ステップS28において、音源位置特定部32は、ステップS26の処理で所定時間経過を通知するタイマに対応した字幕を消去するように、出力部28に指示する。
 図18は、図17に示す音声字幕化処理を実行した際に、ユーザの視野に表示される字幕の例を示した図である。
 図18では、「聴覚障がい者用のウェアラブルデバイスって知ってる?」の字幕の輝度が「聞いたことある」の字幕の輝度より低く表示される例を示している。このように、図17に示す音声字幕化処理においてステップS24の処理が繰り返し実行されることで、発話時期が古い字幕ほど字幕の輝度が低く表示されるため、ユーザは字幕の表示順を把握することができる。
 なお、字幕の表示順を表す方法として字幕の輝度を変化させる以外に、例えば字幕のぼかしの度合いを変化させるようにしてもよい。具体的には、例えば発話時期が古い字幕ほど字幕のぼかし度合いを高め、字幕の鮮鋭度を低下させるようにしてもよい。また、字幕に字幕の表示順を表す番号を表示してもよい。
 こうした音声に対応する情報の表示順を表す処理は、表示順を表す対象を字幕からアイコンに置き換えることで、図9に示す状況通知処理にも適用することができる。
 例えば、ステップS52の処理の後、アイコン毎にタイマを起動する。そして、ステップS20の処理で否定判定となった場合の音声待ち状態において、表示中の各アイコンに対して図17に示すステップS22~S28の各処理を実施することで、アイコンの表示順に応じてアイコンの輝度を変化させることができる。
 このように、本変形例に係るデバイス10は、字幕及びアイコンの視認性を変化させることで、音声に対応する情報のうち、どの情報が最近表示された情報かをユーザに通知することができる。従って、ユーザは会話の流れや周囲の状況変化の流れを理解することができる。また、所定時間経過した字幕及びアイコンは消去されるため、視野に表示される字幕及びアイコンの数が制限されて状況が把握しやすくなる。
(第2実施形態)
 第1実施形態では、各々のマイク22から得られる音声信号の到達時間のずれから音声の入射角を算出し、音声の発生方向を特定するデバイス10について説明した。第2実施形態では、更にユーザの視線の方向を検知し、視線の方向と、特定した音声の発生方向と、を組み合わせることによって、字幕及びアイコンの表示位置を補正するデバイスについて説明する。
 図19は、第2実施形態に係るウェアラブルデバイスの一例を示す図である。
 図19に示すように、ウェアラブルデバイス12(以降、デバイス12と称す)は、第1実施形態に係るデバイス10の左右2箇所のパッドクリングス部に、更に眼電位センサ21を各々内蔵した眼鏡型端末である。すなわち、デバイス12は眼電位センサ21を内蔵する点以外は、デバイス10と同じ構造を有する。
 人間の眼球は、角膜が正、網膜が負に帯電しているため、眼球を動かすと眼球周辺における皮膚の電位が変化する。眼電位センサ21は、パッドクリングス部周辺の皮膚に生じる電位差から、デバイス12を装着した際のユーザの眼球運動を計測し、ユーザの視線の方向を検知するセンサである。
 なお、第2実施形態では、眼球運動の計測法として眼電位センサ21を用いる例を示したが、これは装置構成が比較的単純であるため低価格であり、メンテナンスも比較的容易であるためである。しかし、眼球運動の計測法は眼電位センサ21による方法に限定されない。例えばサーチコイル法、強膜反射法、角膜反射法、Video-oculography法等、眼球運動に関する公知の計測法を用いることができる。
 また、デバイス12は2つの眼電位センサ21を内蔵しているが、眼電位センサ21の数に制限はない。また、眼球周辺に発生する電位差を計測できる位置であれば、眼電位センサ21の設置場所にも制限はない。例えば右の透明部材19と左の透明部材19とをつなぐ眉間部に眼電位センサ21を設けてもよく、透明部材19を取り囲むフレームに、眼電位センサ21を設けてもよい。
 図20は、図19に示したデバイス12の機能を示す機能ブロック図である。図19に示すデバイス12の機能ブロック図において、図2に示した第1実施形態に係るデバイス10の機能ブロック図との相違点は、視線検知部36が追加された点である。
 視線検知部36は、眼電位センサ21で取得した電位差の情報から、ユーザの視線がどちらの方向に向いているかを検知して、音源位置特定部32に通知する。
 次に、デバイス12の各機能部をコンピュータで実現する場合の構成図を図21に示す。
 図21に示すコンピュータ200Aの構成図において、図5に示した第1実施形態に係るコンピュータ200の構成図との相違点は、表示制御プログラム220Aに視線検知プロセス230が追加された点と、バス208に眼電位センサ21が接続された点である。
 CPU202が、表示制御プログラム220Aを記憶部206から読み出してメモリ204に展開し、表示制御プログラム220Aを実行することで、コンピュータ200Aが図20に示すデバイス12の各機能部として動作する。そして、CPU202が視線検知プロセス230を実行することで、コンピュータ200Aが図20に示す視線検知部36として動作する。
 なお、デバイス12の各機能部は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
 次に、第2実施形態に係るデバイス12の作用について説明する。第2実施形態に係るデバイス12は、デバイス12の起動後に音声字幕化処理を実行する。
 図22は、デバイス12の音声字幕化処理の流れの一例を示すフローチャートである。図22に示すフローチャートにおいて、図6に示した第1実施形態に係る音声字幕化処理のフローチャートとの相違点は、ステップS44が追加され、ステップS50をステップS56の処理で置き換えた点である。
 ステップS44において、視線検知部36は、眼電位センサ21で取得した電位差の情報から、ユーザの視線が向いている方向を検知する。具体的には、視線検知部36は、各々の眼電位センサ21から得られる電位差の組み合わせに対して、デバイス12の位置を原点とした3次元座標空間における視線の角度を対応させた視線算出テーブルを参照して、ユーザの視線の方向を算出する。
 なお、電位差の組み合わせに対応する視線の角度は、デバイス12の実機による実験や、デバイス12の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、視線算出テーブルは、例えばメモリ204の予め定めた領域に予め記憶される。
 そして、視線検知部36は、算出した視線の方向を音源位置特定部32に通知する。
 ステップS56において、音源位置特定部32は、図6に示したステップS50の処理と同じく、ステップS30の処理で特定した音声の発生方向から、ステップS40の処理で取得した字幕の表示位置を仮決定する。そして、音源位置特定部32は、ステップS44の処理で検知したユーザの視線の方向によって、仮決定した字幕の表示位置を補正する。
 例えば、音声の発生方向がユーザの正面から見て右方向であり、且つ、ユーザの視線もユーザの正面から見て右方向である場合、ユーザの視線がユーザの正面方向にある場合に比べて、視野の中央部から近い位置に字幕を表示する。
 ユーザの視野の中心はユーザの視線の方向によって変化する。このため、音声信号の到達時間のずれから特定した音声の発生方向に対応する位置に字幕を表示するだけでは、字幕の表示位置と音声の発生方向との間のずれがユーザに知覚されてしまう場合があるためである。
 このようにデバイス12は、第1実施形態に係るデバイス10に比べて、字幕に対応した発話が何れの発話者から発せられたかを、ユーザの視野内に精度よく表示することができる。
 なお、第1実施形態では、ステップS10における字幕化開始指示の有無、及びステップS60における字幕化終了指示の有無を、例えばデバイス10に設けられた図示しないボタン等が操作されたかに基づいて判定した。
 しかし、デバイス12には眼電位センサ21が備えられているため、例えば、連続してまばたきを3回する等の特定のアイサインによって、音声字幕化処理の開始及び終了を切り替えるようにしてもよい。この場合、手で音声字幕化処理の開始及び停止を切り替える操作をするよりも操作性が向上する。
 一方、デバイス12は、デバイス12の起動後に状況通知処理を実行する。
 図23は、デバイス12の状況通知処理の流れの一例を示すフローチャートである。図23に示すフローチャートにおいて、図9に示した第1実施形態に係る状況通知処理のフローチャートとの相違点は、ステップS44が追加され、ステップS52をステップS58の処理で置き換えた点である。
 ステップS44では、図22で説明した音声字幕化処理におけるステップS44と同様の処理によって、ユーザの視線の方向を検知する。
 ステップS58では、表示位置の補正対象を字幕からアイコンに置き換えた上で、図22で説明した音声字幕化処理におけるステップS56の処理を行うことにより、ステップS44の処理で検知したユーザの視線の方向によって、アイコンの表示位置を補正する。
 このようにデバイス12は、ユーザの視線の方向を考慮して、音声の発生源の位置をユーザの視野内に精度よく表示することができる。
 なお、第1実施形態に係るデバイス10において示唆した内容は、第2実施形態に係るデバイス12にも適用できることは言うまでもない。
(第3実施形態)
 聴覚障がい者は口頭で自分の意思を伝える場合もあるが、既に述べたように、聴覚障がい者は自身の発声を確認し難いため、正しい発音を習得することが困難な場合が多く、意図する内容が相手に伝わらない可能性が考えられる。こうした傾向は、とりわけ先天的な聴覚障がい者や幼児期に聴力が低下した人に多く見られる。
 そこで、第3実施形態では、ユーザが作成した文章を音声に変換して周囲の人に出力する、所謂発話機能を備えたデバイスについて説明する。
 図24は、第3実施形態に係るウェアラブルデバイスの一例を示す図である。
 図24に示すように、ウェアラブルデバイス14(以降、デバイス14と称す)は、第2実施形態に係るデバイス12のテンプル18に、更にスピーカ23を内蔵した眼鏡型端末である。図24に示すデバイス14には左右のテンプル18にスピーカ23が各々内蔵されているが、これは一例であり、デバイス14に内蔵されるスピーカ23の位置及び数に制限はない。
 図25は、図24に示したデバイス14の機能を示す機能ブロック図である。図25に示すデバイス14の機能ブロック図において、図20に示した第2実施形態に係るデバイス12の機能ブロック図との相違点は、出力部28にスピーカ23が接続される点と、出力部28と視線検知部36とが直接接続される点である。
 視線検知部36は、例えばユーザから特定のアイサインによって発話機能の開始指示を受け付けると、ユーザの視野内に、例えばアルファベット等の文字が1つずつ異なる位置に並んだ文字盤を表示するように出力部28へ指示する。そして、視線検知部36は、眼電位センサ21で計測される電位差からユーザが文字盤のどの文字を見ているかを検知して、ユーザが選択した文字を特定する。そして、視線検知部36は、ユーザが指定したタイミングでユーザが選択した文字の並びによって表される文章を出力部28に通知する。
 出力部28は、視線検知部36から通知された文章を、前記文章を読み上げる音声に変換して、前記文章を読み上げる音声をスピーカ23から出力する。
 なお、デバイス14の各機能部をコンピュータで実現する場合の構成は、図21に示すデバイス12の各機能部をコンピュータで実現する場合の構成図におけるバス208に、更にスピーカ23を接続した形態となる。
 次に、第3実施形態に係るデバイス14の作用について説明する。第3実施形態に係るデバイス14は、デバイス14の起動後に発話処理を実行する。
 図26は、デバイス14の発話処理の流れの一例を示すフローチャートである。
 まず、ステップS100において、視線検知部36は、眼電位センサ21からユーザの眼球周辺における電位差の変化を取得する。そして、視線検知部36は、取得した電位差の変化状況が、発話開始指示として予め定めた所定のアイサインによって発生する電位差の変化と一致するか比較することで、ユーザから発話開始指示が通知されたか否かを判定する。そして、否定判定の場合にはステップS100の処理を繰り返し実行して、ユーザからの発話開始指示を待つ。一方、肯定判定の場合には、視線検知部36は出力部28に文字盤の表示を指示し、ステップS110へ移行する。
 なお、発話開始指示のアイサインに対応する電位差の変化に関する情報は、例えばメモリ204の予め定めた領域に予め記憶しておけばよい。
 ステップS110において、出力部28は、視線検知部36から文字盤表示の指示を受けると、プロジェクタ24を用いてユーザの視野内に文字盤を表示する。文字盤には、例えば文字、英数字、及び記号等が表示され、出力部28は、視線検知部36から文字盤の表示内容を切り替える指示を受け付けることにより、文字盤の表示内容を切り替える。なお、ユーザは文字盤に最初に表示される文字の種類を予め設定することが可能であり、例えば英語を使用するユーザは英語で用いられる文字を、日本語を使用するユーザは日本語で用いられる文字を、文字盤に表示することができる。
 ステップS120において、視線検知部36は、眼電位センサ21で計測される電位差からユーザが文字盤上のどの文字を見ているかを検知して、ユーザが選択した文字を特定する。具体的には、例えば視線検知部36は、眼電位センサ21で計測される電位差と、当該電位差が生じる場合の視線の先にある文字盤上の文字と、を予め対応づける文字変換テーブルを参照して、ユーザが選択した文字を特定する。
 なお、眼電位センサ21によって計測される電位差と、当該電位差が生じる場合の視線の先にある文字盤上の文字と、の対応関係は、デバイス14の実機による実験や、デバイス14の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、文字変換テーブルは、例えばメモリ204の予め定めた領域に予め記憶される。
 次にステップS130において、視線検知部36は、ステップS120の処理で特定したユーザが選択した文字を、例えばメモリ204の予め定めた領域に記憶する。
 ステップS140において、視線検知部36は、眼電位センサ21からユーザの眼球周辺における電位差の変化を取得する。そして、視線検知部36は、取得した電位差の変化状況が、発話終了指示として予め定めた所定のアイサインによって発生する電位差の変化と一致するか比較することで、ユーザから発話終了指示が通知されたか否かを判定する。そして、否定判定の場合にはS120へ移行し、ステップS120~S140の処理を繰り返し実行する。ステップS120~S140の処理が繰り返し実行されることで、ステップS120の処理で特定したユーザが選択した文字が、ステップS130の処理によってメモリ204に順次記憶され、ユーザが伝えたい文章が生成される。
 一方、肯定判定の場合にはステップS150へ移行する。
 ステップS150において、出力部28は、ステップS110の処理で表示した文字盤の表示を停止する。
 そして、ステップS160において、出力部28は、ステップS130の処理でメモリ204の予め定めた領域に記憶した文章を、前記文章を読み上げる音声に変換して、前記文章を読み上げる音声をスピーカ23から出力する。なお、出力する音声の合成には、公知の音声合成技術の何れを適用してもよい。
 この際、文章の内容及び文脈から音声のトーンを変化させてもよい。具体的には、文章が緊急を伝える内容であれば、ユーザが予め登録した通常時の発声速度及び音程の高さよりも、速い発声速度で、且つ、高い音程でスピーカ23から音声を出力する。この場合、状況にあった発話が可能となり、表現力豊かなコミュニケーションを実現することができる。
 また、マイク22で周囲の音声を収音し、収音した音声の音響スペクトルから周囲に伝わりやすい周波数成分を解析し、解析した周波数成分を含む音声で文章を読み上げるようにしてもよい。この場合、スピーカ23から発せられる音声が聞き取りやすくなる。
 以上、ステップS100~S160の処理により、発話機能が実現される。
 なお、予めユーザの声紋をメモリ204に記憶しておけば、出力部28は公知の音声合成技術を利用してユーザの声で音声を合成することができるため、より自然な会話が実現できる。
 また、図26におけるステップS120の処理の後、ユーザがこれまでに選択した文字の並びから文章の文脈を解析し、文章の文脈からユーザが選択すると思われる単語の候補を先回りして表示するようにしてもよい。こうした単語の表示方法を、「予測表示」と言う場合がある。
 具体的には、言語モデル部48は、ステップS120の処理で特定された文字と、ステップS130の処理でメモリ204の予め定めた領域に記憶される、これまでユーザに選択された文字の並びの情報と、を取得する。そして、言語モデル部48は、文字の並びに対して形態素解析等を実行することで文章の文脈を把握し、統計モデルに従って、例えば辞書46に予め登録される単語の中から、特定された文字で始まる文章の文脈の流れに沿った単語の候補を選択する。そして、出力部28は、言語モデル部48で選択された複数の単語の候補をユーザの視野に表示して、ユーザの文字選択に係る操作性を向上させる。
 このようにデバイス14は、ユーザが眼球の動きを利用して作成した文章を音声に変換することができるため、手話通訳を介した会話や筆談に比べて、より短い時間に、且つ、正確に、発話者の意思を相手に伝えることができる。
 なお、第1実施形態に係るデバイス10及び第2実施形態に係るデバイス12において示唆した内容は、第3実施形態に係るデバイス14にも適用できることは言うまでもない。
(第4実施形態)
 第1実施形態~第3実施形態では、デバイス10、12、及び14に内蔵される処理装置20で、これまで説明した音声字幕化処理、状況通知処理、及び発話処理を実行する形態について説明した。
 第4実施形態では、デバイス10、12、及び14で実行される処理の一部を、クラウドサービスを利用して実行する形態について説明する。なお、クラウドサービスとは、ネットワークを介してコンピュータ等の情報処理装置の処理能力を提供するサービスである。
 図27は、第4実施形態に係るウェアラブルデバイスの一例を示す図である。
 図27に示すように、ウェアラブルデバイス16(以降、デバイス16と称す)は、第3実施形態に係るデバイス14に対して、更に通信装置25を内蔵した眼鏡型端末である。なお、デバイス16における通信装置25の設置場所は一例であり、テンプル18の位置に制限されない。
 通信装置25は、例えばインターネット等のネットワークに接続するためのインターフェースを含み、図28に示すようにデバイス16と、ネットワーク50に接続される情報処理装置52と、の間でデータを送受信する装置である。
 なお、通信装置25で用いられる通信規格に制限はなく、例えばLTE(Long Term Evolution)、WiFi(The Standard for Wireless Fidelity)、ブルートゥース等、様々な通信規格を使用することができる。しかし、デバイス16は移動を前提としたウェアラブルデバイスであることから、通信装置25は無線でネットワーク50に接続できることが好ましい。従って、ここでは一例として、通信装置25のネットワーク50への接続形態は、無線であるものとして説明を行う。また、情報処理装置52は複数のコンピュータ等を含むものであってもよい。
 図29は、図27に示したデバイス16の機能を示す機能ブロック図である。図29に示すデバイス16の機能ブロック図において、図25に示した第3実施形態に係るデバイス14の機能ブロック図との相違点は、音声認識部34が音響分析部40で置き換えられると共に、無線通信部38が追加され、音響分析部40に接続された点である。
 また、図30は、情報処理装置52の機能を示す機能ブロック図であり、情報処理装置52は、認識デコーダ部42、音響モデル部44、辞書46、言語モデル部48、及び通信部54を含む。なお、通信部54は、ネットワーク50に接続してデバイス16との間でデータを送受信するための機能を有する。また、通信部54のネットワーク50への接続形態は、有線又は無線の何れの形態であってもよい。
 このように、第4実施形態では、デバイス10、12、及び14に含まれる音声認識部34の構成要素のうち、音響分析部40をデバイス16に残し、認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48を情報処理装置52に移行する。そして、音響分析部40と、認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48と、を無線通信部38及び通信部54で接続し、ネットワーク50を介して音声認識部34として機能させるクラウドサービスを利用した形態をとる。
 次に、デバイス16の各機能部をコンピュータで実現する場合の構成図を図31に示す。
 図31に示すコンピュータ200Bの構成図において、第3実施形態で説明したデバイス14の各機能部をコンピュータで実現する場合の構成との相違点は、新たにバス208に無線通信IF(Interface)27が接続された点である。また、表示制御プログラム220Bに無線通信プロセス232が追加され、音声認識プロセス226が音響分析プロセス225に置き換えられた点も、第3実施形態と異なる。
 CPU202が、表示制御プログラム220Bを記憶部206から読み出してメモリ204に展開し、表示制御プログラム220Bを実行することで、コンピュータ200Bが図29に示すデバイス16の各機能部として動作する。そして、CPU202が無線通信プロセス232を実行することで、コンピュータ200Bが図29に示す無線通信部38として動作する。また、CPU202が音響分析プロセス225を実行することで、コンピュータ200Bが図29に示す音響分析部40として動作する。
 なお、デバイス16の各機能部は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
 次に、情報処理装置52をコンピュータで実現する場合の構成図を図32に示す。
 コンピュータ300は、CPU302、メモリ304、及び不揮発性の記憶部306を含む。CPU302、メモリ304、及び不揮発性の記憶部306は、バス308を介して互いに接続される。また、コンピュータ300は、通信IF29及びI/O310を備え、通信IF29及びI/O310はバス308に接続される。なお、記憶部306はHDDやフラッシュメモリ等によって実現できる。
 記憶部306には、コンピュータ300を図30に示す情報処理装置52の各機能部として機能させるための音声認識プログラム320が記憶される。記憶部306に記憶される音声認識プログラム320は、通信プロセス322、認識デコーダプロセス324、音響モデルプロセス326、及び言語モデルプロセス328を含む。
 CPU302は、音声認識プログラム320を記憶部306から読み出してメモリ304に展開し、音声認識プログラム320が有する各プロセスを実行する。
 CPU302が、音声認識プログラム320を記憶部306から読み出してメモリ304に展開し、音声認識プログラム320を実行することで、コンピュータ300が図30に示す情報処理装置52の各機能部として動作する。具体的には、CPU302が通信プロセス322を実行することで、コンピュータ300が図30に示す通信部54として動作する。また、CPU302が認識デコーダプロセス324を実行することで、コンピュータ300が図30に示す認識デコーダ部42として動作する。また、CPU302が音響モデルプロセス326を実行することで、コンピュータ300が図30に示す音響モデル部44として動作する。また、CPU302が言語モデルプロセス328を実行することで、コンピュータ300が図30に示す言語モデル部48として動作する。
 また、CPU302が、辞書格納領域240に含まれる辞書データをメモリ304に展開することで、コンピュータ300が図30に示す辞書46を含む。
 なお、情報処理装置52の各機能部は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
 なお、デバイス16が音声認識処理、音声種類特定処理、及び発話処理を情報処理装置52と連携して実行する点以外は、デバイス16における音声字幕化処理、状況通知処理、及び発話処理の流れは、これまで説明した各処理の流れと同じになる。
 例えば、デバイス16は、図7に示した音声認識処理のうち、音響分析部40でステップS400の処理を実行し、取得した音響スペクトルの時系列データを無線通信部38に通知する。無線通信部38は、音響分析部40から受け付けた音響スペクトルの時系列データを、無線通信IF27を経由してネットワーク50上の情報処理装置52へ送信する。
 情報処理装置52は音響スペクトルの時系列データを受信すると、図7に示した音声認識処理のうち、ステップS401~S406の処理を行う。この際、ステップS406において、認識デコーダ部42は、ステップS404の処理で字幕化された発話者の発話内容を通信部54へ通知する。そして、通信部54は字幕化された発話者の発話内容を、通信IF29を経由してデバイス16の音源位置特定部32に送信する。
 同様に、デバイス16は、図10に示した音声種類特定処理のうち、音響分析部40でステップS400の処理を実行し、取得した音響スペクトルの時系列データを情報処理装置52に送信する。情報処理装置52は音響スペクトルの時系列データを受信すると、図10に示した音声種類特定処理のうち、ステップS408の処理を実行し、音響スペクトルから特定した音声の種類をデバイス16に送信する。
 また、デバイス16は発話処理において予測表示を実行する際、図26のステップS120の処理で特定した文字と、ステップS130の処理でメモリ204に記憶した、これまでユーザが選択した文字の並びの情報と、を情報処理装置52に送信する。そして、情報処理装置52の言語モデル部48で、特定した文字及びこれまでの文字の並びの情報から文脈の流れに沿った単語の候補を選択し、選択した単語の候補をデバイス16に送信すればよい。
 このようにデバイス16がクラウドサービスを利用して音声認識を行う理由は、デバイス16で処理するデータ処理量をデバイス10、12、及び14で処理するデータ処理量より低減させるためである。
 デバイス16等に代表されるウェアラブルデバイスは、体に装着して使用することを前提としているため、潜在的なニーズとして、できるだけ軽量且つ小型にすることが求められる。従って、デバイスに内蔵するCPU202及びメモリ204等の部品はできるだけ軽量且つ小型の部品が使用される傾向にある。しかし、部品は軽量且つ小型になるに従って、処理能力及び記憶容量等の性能が低下する場合が多く、デバイス単体で実現できる性能が制限される場合がある。
 従って、図30に示すように、情報処理装置52に認識デコーダ部42、音響モデル部44、辞書46、及び言語モデル部48を持たせることで、デバイス16でのデータ処理量を低減し、デバイス16の軽量且つ小型化を実現することができる。
 更に、情報処理装置52の処理性能、重量及び大きさ等の仕様に対する制限はないことから、情報処理装置52には、デバイス16に内蔵可能なCPU202及びメモリ204等の部品より高性能の部品を用いることができる。従って、デバイス10、12、及び14に比べて、辞書46に登録できる音響スペクトル及び単語の量が増加すると共に、高速な音声認識が可能となる。結果として、マイク22で収音した音声の種類及び音声の発生方向の特定に係る時間が短縮されることから、デバイス16はデバイス10、12、及び14に比べて、アイコン及び字幕を表示するまでの時間を短縮することができる。また、デバイス16はデバイス10、12、及び14に比べて、音声の種類及び音声の発生方向の特定精度を向上させることができる。
 また、情報処理装置52で複数のデバイス16の音声認識処理を実行するようにすれば、例えば情報処理装置52の辞書46に登録される音響スペクトル及び単語等を更新することで、複数のデバイス16が利用する辞書46を一括して更新することができる。
 なお、第4実施形態では音声認識部34の構成要素のうち、音響分析部40をデバイス16に残す例を示したが、デバイス16に残す機能部と情報処理装置52に移行する機能部をどのように分けるかについての制限はない。
 このように、各実施形態に係るデバイス10、12、14、及び16(以降、単に「デバイス」と称す)は、音声字幕化処理及び発話処理を通して、聴覚障がい者に周囲の人とコミュニケーションをとる機能を提供することができる。また、各実施形態に係るデバイスは、状況通知処理を通して聴覚障がい者に周囲の状況を把握する機能を提供することができる。
 以上、各実施形態を用いて開示の技術を説明したが、開示の技術は各々の実施形態に記載の範囲には限定されない。開示の技術の要旨を逸脱しない範囲で各々の実施形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も開示の技術の技術的範囲に含まれる。例えば、開示の技術の要旨を逸脱しない範囲で処理の順序を変更してもよい。
 また、各実施形態では、表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320が記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されるものではない。開示の技術に係る表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320は、コンピュータ読取可能な記録媒体に記録されている形態で提供することも可能である。例えば、開示の技術に係る表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320は、CD-ROM、DVD-ROM、及びUSBメモリ等の可搬型記録媒体に記録されている形態で提供することも可能である。また、開示の技術に係る表示制御プログラム220、220A、及び220B、並びに音声認識プログラム320は、フラッシュメモリ等の半導体メモリ等に記録されている形態で提供することも可能である。
 なお、各実施形態に係るデバイスに、ユーザ周辺の画像を撮影するカメラを取り付けてもよい。この場合、公知の画像認識処理を用いてカメラで撮影した画像から人物及び車両等、音声の発生源になりうると考えられる予め定めた物体の位置を検知する。そして、カメラの画像から検知した物体の位置と、音声信号の到達時間のずれから特定した音声の発生方向の情報と組み合わせることで、音声の発生源の位置を特定することができる。
 このように、音声信号の到達時間のずれから特定した音声の発生方向を物体の位置に合わせて修正することができるため、単に音声信号の到達時間のずれから音声の発生方向を特定する場合と比較して、音声の発生源の位置を精度よく特定することができる。

Claims (29)

  1.  マイクと、
     ディスプレイと、
     該マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、前記ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部と、
     を備えたことを特徴とするウェアラブルデバイス。
  2.  マイクと、
     ディスプレイと、
     該マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信する無線通信部と、
     前記無線通信部により受信された無線信号に含まれる前記所定の情報の検出に応じて、前記ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部と、
     を備えたことを特徴とするウェアラブルデバイス。
  3.  前記ディスプレイは、網膜ディスプレイ又は透過型ディスプレイである、
     ことを特徴とする請求項1又は2に記載のウェアラブルデバイス。
  4.  前記表示は、前記呼びかけに対応する所定のアイコン又は文字の表示である、
     ことを特徴とする請求項1乃至3の何れかに記載のウェアラブルデバイス。
  5.  前記制御部は、前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向に対応する位置に前記表示を行う、
     ことを特徴とする請求項1乃至4の何れかに記載のウェアラブルデバイス。
  6.  前記制御部は、前記ウェアラブルデバイスが装着される状態において、前方、後方、右側、左側、上側、下側の少なくとも何れかを、前記発生方向とする、
     ことを特徴とする請求項5に記載のウェアラブルデバイス。
  7.  前記制御部は、前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が前方である場合と後方である場合とで、前記ディスプレイに異なるマークを表示する又は前記ディスプレイに同じマークを異なる態様で表示する、
     ことを特徴とする請求項1乃至6の何れかに記載のウェアラブルデバイス。
  8.  前記制御部は、前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が後方である場合にアラートマークを表示する、
     ことを特徴とする請求項1乃至7の何れかに記載のウェアラブルデバイス。
  9.  前記制御部は、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出した場合、前記ディスプレイへの情報表示を行い、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれない場合、前記ディスプレイへの情報表示を行わないような制御を行う、
     ことを特徴とする請求項1乃至8の何れかに記載のウェアラブルデバイス。
  10.  コンピュータが、
     マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する、
     処理を実行することを特徴とする表示制御方法。
  11.  コンピュータが、
     マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信し、
     受信された無線信号に含まれる前記所定の情報の検出に応じて、ディスプレイに呼びかけの発生を示す表示を行うように制御する
     処理を実行することを特徴とする表示制御方法。
  12.  前記ディスプレイは、網膜ディスプレイ又は透過型ディスプレイである、
     ことを特徴とする請求項10又は11に記載の表示制御方法。
  13.  前記表示は、前記呼びかけに対応する所定のアイコン又は文字の表示である、
     ことを特徴とする請求項10乃至12の何れかに記載の表示制御方法。
  14.  前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向に対応する位置に前記表示を行う、
     ことを特徴とする請求項10乃至13の何れかに記載の表示制御方法。
  15.  前記処理を実行する装置が装着される状態において、前方、後方、右側、左側、上側、下側の少なくとも何れかを、前記発生方向とする、
     ことを特徴とする請求項14に記載の表示制御方法。
  16.  前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が前方である場合と後方である場合とで、前記ディスプレイに異なるマークを表示する又は前記ディスプレイに同じマークを異なる態様で表示する、
     ことを特徴とする請求項10乃至15の何れかに記載の表示制御方法。
  17.  前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が後方である場合にアラートマークを表示する、
     ことを特徴とする請求項10乃至16の何れかに記載の表示制御方法。
  18.  取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出した場合、前記ディスプレイへの情報表示を行い、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれない場合、前記ディスプレイへの情報表示を行わないような制御を行う、
     ことを特徴とする請求項10乃至17の何れかに記載の表示制御方法。
  19.  マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する、
     処理をコンピュータに実行させることを特徴とする表示制御プログラム。
  20.  マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信し、
     受信された無線信号に含まれる前記所定の情報の検出に応じて、ディスプレイに呼びかけの発生を示す表示を行うように制御する
     処理をコンピュータに実行させることを特徴とする表示制御プログラム。
  21.  前記ディスプレイは、網膜ディスプレイ又は透過型ディスプレイである、
     ことを特徴とする請求項19又は20に記載の表示制御プログラム。
  22.  前記表示は、前記呼びかけに対応する所定のアイコン又は文字の表示である、
     ことを特徴とする請求項19乃至21の何れかに記載の表示制御プログラム。
  23.  前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向に対応する位置に前記表示を行う、
     ことを特徴とする請求項19乃至22の何れかに記載の表示制御プログラム。
  24.  前記処理を実行する装置が装着される状態において、前方、後方、右側、左側、上側、下側の少なくとも何れかを、前記発生方向とする、
     ことを特徴とする請求項23に記載の表示制御プログラム。
  25.  前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が前方である場合と後方である場合とで、前記ディスプレイに異なるマークを表示する又は前記ディスプレイに同じマークを異なる態様で表示する、
     ことを特徴とする請求項19乃至24の何れかに記載の表示制御プログラム。
  26.  前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が後方である場合にアラートマークを表示する、
     ことを特徴とする請求項19乃至25の何れかに記載の表示制御プログラム。
  27.  取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出した場合、前記ディスプレイへの情報表示を行い、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれない場合、前記ディスプレイへの情報表示を行わないような制御を行う、
     ことを特徴とする請求項19乃至26の何れかに記載の表示制御プログラム。
  28.  コンピュータに、
     マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する、
     ことを含む処理を実行させるための表示制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
  29.  コンピュータに、
     マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信し、
     受信された無線信号に含まれる前記所定の情報の検出に応じて、ディスプレイに呼びかけの発生を示す表示を行うように制御する
     ことを含む処理を実行させるための表示制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2014/079999 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム WO2016075781A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP14905668.1A EP3220372B1 (en) 2014-11-12 2014-11-12 Wearable device, display control method, and display control program
PCT/JP2014/079999 WO2016075781A1 (ja) 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
JP2016558498A JP6555272B2 (ja) 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
US15/589,144 US20170243600A1 (en) 2014-11-12 2017-05-08 Wearable device, display control method, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/079999 WO2016075781A1 (ja) 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/589,144 Continuation US20170243600A1 (en) 2014-11-12 2017-05-08 Wearable device, display control method, and computer-readable recording medium

Publications (1)

Publication Number Publication Date
WO2016075781A1 true WO2016075781A1 (ja) 2016-05-19

Family

ID=55953894

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/079999 WO2016075781A1 (ja) 2014-11-12 2014-11-12 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム

Country Status (4)

Country Link
US (1) US20170243600A1 (ja)
EP (1) EP3220372B1 (ja)
JP (1) JP6555272B2 (ja)
WO (1) WO2016075781A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180019062A (ko) * 2016-07-12 2018-02-23 선전 구딕스 테크놀로지 컴퍼니, 리미티드 전력 공급 관리를 진행할 수 있는 웨어러블 기기 및 방법
WO2019003616A1 (ja) * 2017-06-26 2019-01-03 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体
JP2020076852A (ja) * 2018-11-07 2020-05-21 株式会社ジンズホールディングス アイウエア
JP2021072575A (ja) * 2019-10-31 2021-05-06 パナソニックIpマネジメント株式会社 音源表示システム及び音源表示装置
JP2022530201A (ja) * 2019-05-02 2022-06-28 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
CN115064036A (zh) * 2022-04-26 2022-09-16 北京亮亮视野科技有限公司 基于ar技术的危险预警方法和装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020116001A1 (ja) * 2018-12-03 2020-06-11 ソニー株式会社 情報処理装置および情報処理方法
US11069368B2 (en) * 2018-12-18 2021-07-20 Colquitt Partners, Ltd. Glasses with closed captioning, voice recognition, volume of speech detection, and translation capabilities
WO2020147925A1 (de) * 2019-01-15 2020-07-23 Siemens Aktiengesellschaft System zum visualisieren einer geräuschquelle in einer umgebung eines nutzers sowie verfahren
US10602302B1 (en) * 2019-02-06 2020-03-24 Philip Scott Lyren Displaying a location of binaural sound outside a field of view
EP3935474A4 (en) * 2019-04-05 2022-10-12 Hewlett-Packard Development Company, L.P. MODIFICATION OF AUDIO CONTENT BASED ON PHYSIOLOGICAL OBSERVATIONS
CN112397070B (zh) * 2021-01-19 2021-04-30 北京佳珥医学科技有限公司 一种滑动翻译ar眼镜

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005099418A (ja) * 2003-09-25 2005-04-14 Casio Comput Co Ltd オブジェクト表示装置およびプログラム
JP2007334149A (ja) * 2006-06-16 2007-12-27 Akira Hata 聴覚障害者用ヘッドマウントディスプレイ装置
JP2010048851A (ja) * 2008-08-19 2010-03-04 Olympus Imaging Corp 表示装置および表示方法
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
JP2012133250A (ja) * 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム
JP5286667B2 (ja) * 2006-02-22 2013-09-11 コニカミノルタ株式会社 映像表示装置、及び映像表示方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6532446B1 (en) * 1999-11-24 2003-03-11 Openwave Systems Inc. Server based speech recognition user interface for wireless devices
US7356473B2 (en) * 2005-01-21 2008-04-08 Lawrence Kates Management and assistance system for the deaf
WO2010075634A1 (en) * 2008-12-30 2010-07-08 Karen Collins Method and system for visual representation of sound
US20120078628A1 (en) * 2010-09-28 2012-03-29 Ghulman Mahmoud M Head-mounted text display system and method for the hearing impaired
WO2012068280A1 (en) * 2010-11-16 2012-05-24 Echo-Sense Inc. Remote guidance system
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统
TWI500023B (zh) * 2013-04-11 2015-09-11 Univ Nat Central 透過視覺的聽覺輔助裝置
US9679467B2 (en) * 2013-04-12 2017-06-13 Pathfinder Intelligence, Inc. Instant alert network system
US9716939B2 (en) * 2014-01-06 2017-07-25 Harman International Industries, Inc. System and method for user controllable auditory environment customization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005099418A (ja) * 2003-09-25 2005-04-14 Casio Comput Co Ltd オブジェクト表示装置およびプログラム
JP5286667B2 (ja) * 2006-02-22 2013-09-11 コニカミノルタ株式会社 映像表示装置、及び映像表示方法
JP2007334149A (ja) * 2006-06-16 2007-12-27 Akira Hata 聴覚障害者用ヘッドマウントディスプレイ装置
JP2010048851A (ja) * 2008-08-19 2010-03-04 Olympus Imaging Corp 表示装置および表示方法
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
JP2012133250A (ja) * 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180019062A (ko) * 2016-07-12 2018-02-23 선전 구딕스 테크놀로지 컴퍼니, 리미티드 전력 공급 관리를 진행할 수 있는 웨어러블 기기 및 방법
KR101983928B1 (ko) 2016-07-12 2019-05-29 선전 구딕스 테크놀로지 컴퍼니, 리미티드 전력 공급 관리를 진행할 수 있는 웨어러블 기기 및 방법
WO2019003616A1 (ja) * 2017-06-26 2019-01-03 ソニー株式会社 情報処理装置、情報処理方法及び記録媒体
US11354511B2 (en) 2017-06-26 2022-06-07 Sony Corporation Information processing device, information processing method, and recording medium
JP2020076852A (ja) * 2018-11-07 2020-05-21 株式会社ジンズホールディングス アイウエア
JP7265856B2 (ja) 2018-11-07 2023-04-27 株式会社ジンズホールディングス アイウエア
JP2022530201A (ja) * 2019-05-02 2022-06-28 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
JP7348957B2 (ja) 2019-05-02 2023-09-21 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
JP2021072575A (ja) * 2019-10-31 2021-05-06 パナソニックIpマネジメント株式会社 音源表示システム及び音源表示装置
CN115064036A (zh) * 2022-04-26 2022-09-16 北京亮亮视野科技有限公司 基于ar技术的危险预警方法和装置

Also Published As

Publication number Publication date
EP3220372A1 (en) 2017-09-20
JP6555272B2 (ja) 2019-08-07
EP3220372B1 (en) 2019-10-16
JPWO2016075781A1 (ja) 2017-10-26
US20170243600A1 (en) 2017-08-24
EP3220372A4 (en) 2018-07-04

Similar Documents

Publication Publication Date Title
JP6555272B2 (ja) ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
JP6447636B2 (ja) ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
JP6551417B2 (ja) ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
US10747315B2 (en) Communication and control system and method
US8909530B2 (en) Apparatus, method, and computer readable medium for expedited text reading using staged OCR technique
CN107003823B (zh) 头戴式显示装置及其操作方法
JP2008139762A (ja) プレゼンテーション支援装置および方法並びにプログラム
KR102047988B1 (ko) 시력 취약계층을 위한 시력 보조장치와 원격관리장치 및 시력 보조방법
KR101684264B1 (ko) 글라스형 웨어러블 디바이스의 버스도착 알림방법 및 이를 이용한 글라스형 웨어러블 디바이스용 프로그램
KR20160017593A (ko) 글라스형 웨어러블 디바이스를 이용한 탈출경로 제공방법 및 프로그램
JP2016194612A (ja) 視覚認識支援装置および視覚認識支援プログラム
KR20160015142A (ko) 글라스형 웨어러블 디바이스를 이용한 긴급시 비상연락방법 및 프로그램
US10643636B2 (en) Information processing apparatus, information processing method, and program
JP2017037212A (ja) 音声認識装置、制御方法、及び、コンピュータープログラム
KR101455830B1 (ko) 안경 및 그 제어방법
JP2002207732A (ja) 翻訳装置
KR20160025203A (ko) 글라스형 웨어러블 디바이스를 이용한 당구코칭 시스템 및 방법
US20240119684A1 (en) Display control apparatus, display control method, and program
JP2020160004A (ja) 車両用ナビゲーション装置
KR20160014743A (ko) 글라스형 웨어러블 디바이스를 이용한 신호변경 알림시스템 및 알림방법
CN118020046A (zh) 信息处理设备、信息处理方法和程序
JP2004194207A (ja) 携帯端末装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14905668

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016558498

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2014905668

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE