WO2021149441A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2021149441A1
WO2021149441A1 PCT/JP2020/048081 JP2020048081W WO2021149441A1 WO 2021149441 A1 WO2021149441 A1 WO 2021149441A1 JP 2020048081 W JP2020048081 W JP 2020048081W WO 2021149441 A1 WO2021149441 A1 WO 2021149441A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
information
sensor data
voice
processing device
Prior art date
Application number
PCT/JP2020/048081
Other languages
English (en)
French (fr)
Inventor
暦本 純一
悠 西村
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021149441A1 publication Critical patent/WO2021149441A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Definitions

  • This disclosure relates to an information processing device and an information processing method.
  • voice interfaces that use voice commands are limited to use in places where the impact of the occurrence on the surroundings is clear, such as smart speakers used in the home and car navigation devices used in the car. It tends to be done.
  • the above-mentioned device or the like can be operated without actually emitting a voice
  • the above-mentioned device or the like can be used regardless of the location.
  • the wearable computer has a device capable of operating the device without emitting voice, by always wearing the wearable computer, it is possible to always obtain the service regardless of the location. ..
  • the present disclosure proposes a new and improved information processing device and information processing method capable of obtaining the intended voice data without the user speaking.
  • an information processing device including a control unit that converts sensor data acquired by measuring skin movement during an utterance into information corresponding to the content of the utterance is provided.
  • an information processing method executed by a processor includes converting sensor data acquired by measuring skin movement during an utterance into information corresponding to the content of the utterance. Provided.
  • Embodiments of the present disclosure 1.1. Overview 1.2. Information processing system configuration 2. Information processing system functions 2.1. Embodiment 1: Silent speech by text 2.1.1. Outline of function 2.1.2. Functional configuration example 2.1.3. Information processing system processing 2.1.4. Variations in processing 2.2.
  • Embodiment 2 Silent speech by phoneme symbol string 2.2.1. Outline of function 2.2.2. Functional configuration example 2.2.2. Information processing system processing 2.2.4. Variations in processing 2.3.
  • Embodiment 3 Silent speech by voice features 2.3.1. Outline of function 2.3.3. Functional configuration example 2.3.3. Information processing system processing 2.3.4. Variations in processing 2.4.
  • Embodiment 4 Silent speech using line-of-sight recognition 2.4.1. Overview 2.4.2. Information processing system configuration 2.4.3. Outline of function 24.4. Functional configuration example 2.4.5. Information processing system processing 2.4.6. Variations of processing 3. Application example 3.1. First application example 3.2. Second application example 3.3. Other application examples 4. Hardware configuration example 5. summary
  • Embodiments of the present disclosure >> ⁇ 1.1. Overview>
  • devices that can be controlled by voice commands have become widespread. For example, in smartphones, car navigation devices, and the like, it has become common to use the search function by using this voice command.
  • a document creation technique for documenting the contents input by voice has become possible.
  • speaker-type voice interface devices that operate by voice commands have become widespread. For example, a smart speaker.
  • voice interfaces that use voice commands are limited to use in places where the impact of the occurrence on the surroundings is clear, such as smart speakers used in the home and car navigation devices used in the car. It tends to be done.
  • the above-mentioned device or the like can be operated without actually emitting a voice
  • the above-mentioned device or the like can be used regardless of the location.
  • the wearable computer has a device capable of operating the device without emitting voice, by always wearing the wearable computer, it is possible to always obtain the service regardless of the location. .. Therefore, a technique related to an unvoiced utterance recognition technique capable of recognizing the utterance content without emitting a voice is being promoted.
  • Patent Document 1 discloses a technique for detecting the movement and location of a voice organ by electromagnetic waves to identify voice.
  • Patent Document 1 research on a pharyngeal microphone, a microphone attached to the throat, and the like for reliably acquiring voice in a noisy environment is also underway.
  • the above-mentioned silent utterance recognition technology needs to emit voice to a whisper, so its use in public spaces is still limited.
  • the recognition accuracy may be lowered by reducing the volume when whispering in order to make the voice more silent.
  • the embodiment of the present disclosure is conceived by paying attention to the above points, and proposes a technique capable of obtaining the intended voice data without the user (speaker) speaking.
  • embodiments will be described in detail in order.
  • audio will be described.
  • FIG. 1 is a diagram showing a configuration example of the information processing system 1.
  • the information processing system 1 includes an information processing device 10, a sensor device 20, and a voice control device 30.
  • Various devices can be connected to the information processing device 10.
  • a sensor device 20 and a voice control device 30 are connected to the information processing device 10, and information is linked between the devices.
  • a sensor device 20 and a voice control device 30 are wirelessly connected to the information processing device 10.
  • the information processing device 10 performs short-range wireless communication using the sensor device 20 and the voice control device 30 and Bluetooth (registered trademark).
  • the sensor device 20 and the voice control device 30 are used for various interfaces such as I2C (Inter-Integrated Circuit) and SPI (Serial Peripheral Interface), and LAN (Local) regardless of whether they are wired or wireless. It may be connected via various networks such as Area Network), WAN (Wide Area Network), the Internet, and mobile communication networks.
  • I2C Inter-Integrated Circuit
  • SPI Serial Peripheral Interface
  • LAN Local Area Network
  • networks such as Area Network), WAN (Wide Area Network), the Internet, and mobile communication networks.
  • the information processing device 10 is an information processing device capable of recognition processing based on machine learning.
  • the recognition process according to the embodiment is, for example, a silent utterance recognition process (hereinafter referred to as a silent utterance recognition process).
  • This silent utterance recognition process is performed on sensor data acquired by measuring skin movement during utterance, for example.
  • the information processing device 10 converts the sensor data indicating the skin movement (hereinafter, the sensor data indicating the skin luck is appropriately referred to as "sensor data”) into information related to voice, and converts the converted information. Recognize information related to voice.
  • the specific content of the non-speech utterance recognition process can be the same as that of the voice recognition process.
  • the sensor data when the speaker changes the state in the oral cavity by lip-syncing (also referred to as lip-synching) without emitting voice is converted into information related to voice.
  • the information processing device 10 can recognize the utterance content even if there is no utterance.
  • the sensor data in this case is sensor data when the speaker moves an object in the oral cavity such as the tongue or the jaw without speaking.
  • the sensor data when the state in the oral cavity is changed at the time of no vocalization is also referred to as the no vocalization sensor data below.
  • Information related to voice is, for example, a text (text data) indicating the content of voice, a phonetic symbol string, a voice feature amount which is a voice feature amount, or the like. The details of the voice features will be described later.
  • Information about voice is converted from unvoiced sensor data using an algorithm acquired by machine learning.
  • the machine learning according to the embodiment is performed by, for example, deep learning.
  • the algorithm acquired by this machine learning is, for example, a neural network (NN: Neural Network).
  • NN Neural Network
  • CNN Convolutional Neural Network
  • the unvoiced sensor data and the output information (text, phonetic symbol string, voice feature amount) are used for machine learning.
  • the silent sensor data when the speaker changes the state in the oral cavity without emitting voice is information related to voice (hereinafter, also referred to as voice data). It is a neural network (hereinafter, also referred to as NN1) that performs a process of converting to. The details of NN1 will be described later.
  • the information processing device 10 also has a function of controlling the overall operation of the information processing system 1. For example, the information processing device 10 controls the overall operation of the information processing system 1 based on the information linked between the devices. Specifically, the information processing device 10 controls processing related to silent utterance recognition in the information processing device 10 based on the information received from the sensor device 20 and the voice control device 30. Further, the information processing device 10 may control the operation of the sensor device 20. Further, the information processing device 10 may control the operation of the voice control device 30.
  • the information processing device 10 is realized by a PC (Personal Computer), WS (Work Workstation), or the like.
  • the information processing device 10 is not limited to a PC, a WS, or the like.
  • the information processing device 10 may be an information processing device such as a PC or WS that implements the function of the information processing device 10 as an application.
  • the sensor device 20 is a gesture sensor that detects the movement of the speaker.
  • the sensor device 20 is a millimeter-wave sensor that measures the movement of the speaker's body surface by coming into contact with a part of the speaker's body surface.
  • the sensor device 20 is a millimeter-wave sensor such as a sled.
  • the sensor device 20 measures the movement of another part of the speaker's body other than the part in contact with the body surface by measuring the skin movement of a part of the speaker's body surface, for example.
  • the sensor device 20 is also a Doppler radar sensor because it non-contactly measures the movement of other parts of the speaker's body.
  • the sensor device 20 is a Doppler radar sensor that non-contactly measures the movements of the speaker's lips, jaw, throat, and the like.
  • the sensor device 20 acquires sensor data when the speaker speaks.
  • the sensor device 20 acquires sensor data by using a skin motion detection technique widely used in medical treatment.
  • the sensor data is, for example, an acceleration, an angular velocity, or an ultrasonic image.
  • the sensor device 20 includes, for example, a detector capable of detecting acceleration, angular velocity, and ultrasonic waves, and by attaching the sensor device 20 so as to be in contact with the body surface of the speaker, sensor data such as acceleration, angular velocity, and ultrasonic images can be attached. To get. Then, the sensor device 20 transmits the acquired sensor data to the information processing device 10.
  • the sensor device 20 may be realized as any device as long as it is a sensor including a detector for measuring skin movement.
  • the sensor device 20 may be an acceleration sensor including a detector capable of detecting acceleration, an angular velocity sensor including a detector capable of detecting angular velocity, or a detection capable of detecting ultrasonic waves. It may be an ultrasonic sensor including a device.
  • the sensor device 20 may be realized as a part of any form of device.
  • the sensor device 20 may be realized as a part of any form of the device by having a function as a part of the object of any form.
  • the sensor device 20 may be realized as a part of the tape type device by being directly attached to the tape KS 11, for example, as shown in FIG. 2A.
  • FIG. 2A shows a case where the tape KS 11 is attached so that the sensor device 20 is located under the jaw of the speaker U12 (sensor position SL1 shown in FIG. 3 described later).
  • the sensor device 20 shown in FIG. 2A is provided on the surface of the central portion of the tape KS 11 due to its structure as a tape-type device.
  • the sensor device 20 may be realized as a part of the headphone type device by being included in the ear pad YP12 of the headphone KS12, for example, as shown in FIG. 2B.
  • FIG. 2B shows a case where the headphones KS12 are attached so that the sensor device 20 is located below the ear of the speaker U12 (sensor position SL5 shown in FIG. 3 described later).
  • the sensor device 20 shown in FIG. 2B is provided inside the ear pad YP12 of the headphone KS12 due to its structure as a headphone type device. As a result, the sensor device 20 can acquire sensor data that changes according to the skin movement during utterance.
  • the sensor device 20 acquires sensor data by being attached so as to be in contact with an arbitrary position shown in FIG. 3, for example.
  • the sensor position SL1 is the position around the platysma muscle on the right side under the chin of the speaker U12.
  • the sensor position SL2 is the position around the platysma muscle on the left side under the chin of the speaker U12.
  • the sensor position SL3 is a position around the vocal cords of the speaker U12.
  • the sensor position SL4 is a position around the pinna of the right ear of the speaker U12.
  • the sensor position SL5 is a position around the masseter muscle on the right side of the speaker U12.
  • the sensor position SL6 is a position around the posterior auricular muscle on the right side of the speaker U12.
  • the sensor position SL7 is a position around the laughing line on the right side of the speaker U12.
  • the sensor position SL8 is a position around the depressor labii inferior muscle on the right side of the speaker U12.
  • the sensor position SL9 is a position around the right side of the orbicularis oris muscle of the speaker U12.
  • the example shown in FIG. 3 is an example, and the position of the sensor device 20 attached to acquire the sensor data is not limited to these positions.
  • a sensor having a total of 6 degrees of freedom that is, a 3-axis acceleration sensor and an angular velocity sensor that measures rotation in 3 directions, is attached as a sensor device 20 to two places such as under the jaw of the speaker U12. It is assumed that the silent speech recognition process is performed by measuring the skin movement when the person U12 changes the state in the oral cavity without uttering a voice. Since each of the two sensor devices 20 has 6 degrees of freedom, a total of 12-dimensional sensor data can be acquired.
  • the voice control device 30 is, for example, a device that controls the drive of peripheral devices to be controlled according to voice data.
  • Peripheral devices are, for example, smart speakers.
  • the voice control device 30 plays and stops music and raises and lowers the volume as an example of controlling the drive of peripheral devices.
  • the voice control device 30 receives, for example, voice data indicating the contents recognized by the information processing device 10 from the information processing device 10. Then, the voice control device 30 controls, for example, the driving of peripheral devices according to the received voice data. That is, the voice control device 30 provides voice data as input information for controlling the driving of peripheral devices without radiating voice in the air. As a result, the voice control device 30 can control the drive of the peripheral device without actually emitting a voice.
  • FIG. 4 is a diagram showing an outline of the functions of the information processing system 1 according to the first embodiment (hereinafter, referred to as “information processing system 1A” in the first embodiment).
  • NN1 (hereinafter referred to as "NN11" in the first embodiment) is acquired in advance by machine learning based on the silent sensor data when the text is read aloud silently.
  • the sensor device 20 acquires the unvoiced sensor data SD11.
  • the acquired silent sensor data SD11 is converted into the text T1 via the NN11.
  • the text T1 is determined from a plurality of predetermined texts.
  • the converted text T1 is input to the control unit 310 of the voice control device 30. Then, the control unit 310 performs a process for controlling the drive of the peripheral device SS1 based on the input text T1.
  • “12” shown in the silent sensor data SD11 indicates the number of dimensions of the sensor data.
  • “100” shown in the silent sensor data SD11 indicates the number of units of time. This "100” corresponds to, for example, 2 seconds in the case of 50 fps.
  • This "100” is a fixed time set as a time sufficient for the speaker U12 to read the text T1 aloud. For example, this "100” is a fixed time set as a time sufficient for the speaker U12 to read "play” aloud.
  • NN11 has a convolution layer.
  • NN11 has convolution layers C1 to C3 and the like.
  • NN11 has a fully connected layer (Full Connected Layer (Dense Layer)) after the convolutional layer.
  • NN11 has fully bonded layers F1 and F2 and the like.
  • NN11 uses Softmax after the fully connected layer to determine the One-hot Vector.
  • NN1 uses softmax S1 to determine the text T1 as a one-hot vector.
  • the text T1 may be any character information as long as it can be recognized by the peripheral device to be controlled.
  • the text T1 may be, for example, a word such as open, play, yes, no, volume up, volume down, or the like. It may be a combination of words.
  • the text T1 is also referred to as a command because it is also control information for controlling the driving of peripheral devices.
  • FIG. 5 is a block diagram showing a functional configuration example of the information processing system 1A according to the first embodiment.
  • the information processing device 10 includes a communication unit 100, a control unit 110, and a storage unit 120.
  • the information processing device 10 has at least a control unit 110.
  • the communication unit 100 has a function of communicating with an external device. For example, the communication unit 100 outputs information received from the external device to the control unit 110 in communication with the external device. Specifically, the communication unit 100 outputs the sensor data received from the sensor device 20 to the control unit 110.
  • the communication unit 100 transmits the information input from the control unit 110 to the external device in communication with the external device. Specifically, the communication unit 100 transmits information regarding acquisition of sensor data input from the control unit 110 to the sensor device 20.
  • Control unit 110 has a function of controlling the operation of the information processing device 10. For example, the control unit 110 converts the silent sensor data into information corresponding to the state in the oral cavity based on the algorithm acquired by machine learning. Specifically, the control unit 110 converts, for example, into text indicating the content of voice as information corresponding to the state in the oral cavity.
  • This algorithm has an NN 11, and the control unit 110 converts the input silent sensor data into text via the NN 11.
  • the control unit 110 inputs the silent sensor data input from the communication unit 100 to the NN 11.
  • the NN11 can perform the silent utterance recognition process by determining the one-hot vector from the input silent sensor data. Therefore, the control unit 110 can control the peripheral device that can be operated by performing the silent utterance recognition process based on the silent utterance sensor data even if the speaker U12 does not emit a voice.
  • control unit 110 includes a machine learning unit 112 and a processing control unit 114, as shown in FIG.
  • Machine learning unit 112 has a function of performing machine learning using learning information.
  • the machine learning unit 112 acquires an algorithm for converting unvoiced sensor data into text by machine learning. Specifically, the machine learning unit 112 acquires the algorithm NN11 for converting the silent sensor data into text.
  • NN11 is obtained by machine learning using learning information including unvoiced sensor data and text.
  • the NN 11 is obtained by machine learning using the silent sensor data when the speaker U12 reads the text unvoiced and the text read by the speaker U12 as learning information.
  • the control unit 110 can convert the unvoiced sensor data into text via the NN 11.
  • this learning information is acquired, for example, by having the speaker U12 read the text aloud.
  • the text and the silent sensor data corresponding to the text can be acquired.
  • machine learning related to NN11 is more effectively learned by relying on a specific speaker. Therefore, it is desirable that machine learning be performed depending on a specific speaker.
  • the processing control unit 114 has a function of controlling the processing in the control unit 110.
  • the processing control unit 114 has a function of performing silent utterance recognition processing.
  • the processing control unit 114 accesses the storage unit 120 and performs conversion processing using the NN 11.
  • the processing control unit 114 inputs the silent sensor data acquired by the sensor device 20 input from the communication unit 100 to the NN 11.
  • the processing control unit 114 determines the processing to be executed based on the result of the silent utterance recognition processing.
  • the processing control unit 114 provides the result of the silent utterance recognition processing to the voice control device 30 via the communication unit 100.
  • the storage unit 120 has a function of storing data related to processing in the information processing device 10.
  • the storage unit 120 stores the neural network NN11, which is an algorithm generated by machine learning in the control unit 110.
  • the control unit 110 accesses the storage unit 120 and uses the NN 11 when converting the silent sensor data into text.
  • the storage unit 120 may store the learning information used by the control unit 110 for machine learning.
  • the data stored in the storage unit 120 is not limited to the above example.
  • the storage unit 120 may store programs such as various applications.
  • the sensor device 20 includes a communication unit 200, a control unit 210, and a sensor data acquisition unit 220.
  • the communication unit 200 has a function of communicating with an external device. For example, the communication unit 200 outputs information received from the external device to the control unit 210 in communication with the external device. Specifically, the communication unit 200 outputs the information regarding the acquisition of the silent sensor data received from the information processing device 10 to the control unit 210.
  • the communication unit 200 transmits the information input from the control unit 210 to the external device in the communication with the external device. Specifically, the communication unit 200 transmits the silent sensor data input from the control unit 210 to the information processing device 10.
  • Control unit 210 has a function of controlling the overall operation of the sensor device 20. For example, the control unit 210 controls the acquisition process of the silent sensor data by the sensor data acquisition unit 220. Further, the control unit 210 controls a process in which the communication unit 200 transmits the silent sensor data acquired by the sensor data acquisition unit 220 to the information processing device 10.
  • the sensor data acquisition unit 220 has a function of acquiring unvoiced sensor data.
  • the sensor data acquisition unit 220 acquires unvoiced sensor data using the sensor detector provided in the sensor device 20.
  • the voice control device 30 includes a communication unit 300 and a control unit 310.
  • the communication unit 300 has a function of communicating with an external device. For example, the communication unit 300 outputs information received from the external device to the control unit 310 in communication with the external device. Specifically, the communication unit 300 outputs the text received from the information processing device 10 to the control unit 310.
  • Control unit 310 has a function of controlling the overall operation of the voice control device 30.
  • the control unit 310 controls the drive of the peripheral device to be controlled according to the acquired text.
  • the control unit 310 provides the acquired text as input information to the peripheral device to be controlled.
  • FIG. 6 is a flowchart showing a flow of machine learning for generating the neural network NN11 according to the first embodiment.
  • the information processing device 10 acquires the text presented to the speaker as learning information (S100). Further, the information processing device 10 acquires the silent sensor data when the speaker reads the text presented to the speaker silently as learning information (S102). Next, the information processing device 10 determines whether or not learning information equal to or higher than a predetermined threshold value has been acquired (S104). Then, when the information processing apparatus 10 acquires learning information equal to or greater than a predetermined threshold value (S104; YES), the information processing device 10 performs machine learning using the acquired learning information (S106).
  • the information processing device 10 stores the neural network NN11 generated by machine learning (S108). Further, when the information processing apparatus 10 has not acquired learning information equal to or greater than a predetermined threshold value (S104; NO), the processing of steps S100 to S104 is repeated.
  • the order of the processing of S100 and the processing of S102 is irrelevant, and either processing may be performed first or may be performed at the same time.
  • FIG. 7 is a flowchart showing a flow of processing in the information processing device 10 according to the first embodiment.
  • the information processing device 10 acquires unvoiced sensor data (S200).
  • the information processing device 10 inputs the acquired silent sensor data to the NN 11 and acquires a text from the silent sensor data (S202).
  • the information processing device 10 provides the acquired text as input information to the peripheral device to be controlled (S204).
  • the information processing device 10 provides the text output from the NN 11 as input information to the peripheral device to be controlled.
  • the information processing device 10 may reproduce the text output from the NN 11 as voice by converting it into, for example, a voice waveform.
  • the information processing device 10 can provide the text output from the NN 11 as input information to the peripheral device having the voice recognition function by radiating the voice in the air as the voice.
  • the present invention is not limited to this example.
  • the silent utterance recognition process may be performed by attaching one or more arbitrary number of sensor devices 20 to the body surface of the speaker.
  • the sensor device 20 uses a sensor with a total of 6 degrees of freedom, a 3-axis acceleration sensor and an angular velocity sensor for measuring rotation in 3 directions, as the sensor device 20 on the speaker's body surface.
  • a total of 12-dimensional sensor data is acquired by attaching the sensor data to the two locations is shown.
  • the above-mentioned example is an example, and the number of dimensions of the sensor data acquired by the sensor device 20 is not limited.
  • the sensor device 20 may acquire a total of 18-dimensional sensor data.
  • the present invention is not limited to this example. That is, there is no limit to the length of the fixed time of the sensor data acquired by the sensor device 20.
  • the sensor device 20 may acquire sensor data of any length for a fixed time as long as it is long enough to read out the target text.
  • the information processing apparatus 10 outputs the text T1 by using the neural network NN11 having the convolutional layer, the fully connected layer, and the softmax is shown, but the present invention is not limited to this example. ..
  • the information processing device 10 utilizes a recurrent unit such as a gated recurrent unit (GRU: Gated Recurrent Unit) or an artificial recurrent unit (LSTM: Long Short-term Memory) widely used in the field of deep learning. You may. That is, the information processing device 10 may output the text T1 using the neural network NN11 having a regression type unit such as GRU or LSTM.
  • GRU Gated Recurrent Unit
  • LSTM Long Short-term Memory
  • the speaker of the silent sensor data acquired during machine learning and the speaker of the silent sensor data input to NN11 are the same speaker. As shown, it does not necessarily have to be the same speaker.
  • the information processing device 10 may acquire a text by inputting into the NN 11 the utterance sensor data of a speaker different from the speaker of the utterance sensor data acquired when the NN 11 is generated.
  • the information processing device 10 acquires the silent sensor data as learning information is shown.
  • the information processing device 10 may acquire the sensor data when the speaker utters and reads aloud as learning information.
  • the information processing device 10 generates the NN 11 by machine learning using the learning information including the sensor data when uttered and read aloud and the text.
  • the information processing device 10 and the sensor device 20 are separate devices, but the information processing device 10 and the sensor device 20 may be integrated.
  • the function of the information processing device 10 may be implemented in a computer that controls the operation of the sensor device 20.
  • the function of the information processing device 10 may be implemented in an arbitrary computer provided in the housing of the sensor device 20.
  • the information processing device 10 and the voice control device 30 may be integrated.
  • the sensor device 20 and the voice control device 30 may be integrated.
  • the information processing device 10, the sensor device 20, and the voice control device 30 may be integrated.
  • the dimension of the convolution layer according to the above embodiment may be 2D (Dimention) by setting the number of dimensions of the sensor data and the fixed time as separate dimensions.
  • the convolution layer may be referred to as a 2D convolution.
  • the dimension of the convolution layer may be 1D by making the number of dimensions of the sensor data and the fixed time the same dimension.
  • the convolution layer may be referred to as a 1D convolution.
  • voice is used as an example of sound, but voice may be used instead of voice.
  • the information processing device 10 may reproduce the text output from the NN 11 as sound by converting it into, for example, an acoustic waveform. Then, the information processing device 10 may provide the text output from the NN 11 as input information to a peripheral device having an acoustic recognition function by radiating the acoustic sound into the air as an acoustic sound.
  • Embodiment 2 Silent speech by phoneme symbol string> ⁇ 2.2.1. Function overview>
  • the information processing device 10 generates a neural network using the text and the silent sensor data as learning information. Therefore, when the silent sensor data input to the neural network fluctuates, the silent speech recognition process is performed. May not be done properly. Therefore, in the second embodiment, the information processing apparatus 10 acquires the phonetic symbol string obtained by converting the text into phonetic symbols as learning information.
  • the phoneme symbol string is a character code representation of speech. As an example of the phoneme symbol string, for example, "/ pl'eImj'u: Ik /" which expresses the voice of "play music" with a character code.
  • FIG. 8 is a diagram showing an outline of the functions of the information processing system 1 according to the second embodiment (hereinafter, referred to as “information processing system 1B” in the second embodiment).
  • the information processing system 1B is referred to as NN1 (hereinafter, referred to as "NN12" in the second embodiment) in advance by machine learning based on the phonetic symbol string of the text and the silent sensor data when the text is read aloud. ) Is acquired.
  • the sensor device 20 acquires the unvoiced sensor data SD12.
  • the acquired unvoiced sensor data SD12 is converted into the phoneme symbol string PS1 via the NN12.
  • the phoneme symbol string PS1 is output each time unvoiced sensor data is input to the NN12.
  • the converted phoneme symbol string PS1 is provided to a synthesizer VS1 (voice synthesizer (speech synthesizer, etc.)) and reproduced as a voice VS11 (S11). Further, the converted phoneme symbol string PS1 may be provided as input information NI 11 to the peripheral device (S12).
  • a synthesizer VS1 voice synthesizer (speech synthesizer, etc.)
  • S11 voice synthesizer
  • the converted phoneme symbol string PS1 may be provided as input information NI 11 to the peripheral device (S12).
  • “170” shown in the silent sensor data SD12 indicates the number of units of time. This "170” is a fixed time set as a time sufficient for the speaker U12 to read the text corresponding to the phoneme symbol string PS1. It should be noted that this "170” is a value larger than "100" shown in the unvoiced sensor data SD11, but this is because it takes more time for the speaker U12 to read “play music” than to read “play”. This is because it takes.
  • NN12 has convolution layers C1 to C3 and the like.
  • NN12 has a GRU after the convolution layer.
  • NN12 has gated recurrent units G1 and G2 and the like.
  • the NN12 can more appropriately reflect the time series of the input silent sensor data by using the GRU.
  • the NN12 can output the phoneme symbol string PS1 that more appropriately reflects the time series of the unuttered sensor data by using the GRU.
  • NN12 uses softmax after the gated recurrent unit.
  • NN12 uses CTC (Connectionist Temporal Classification) after Softmax.
  • the NN12 complements the time series so that the two time series match even when the correspondence between the time series of the individual phoneme symbols and the unvoiced sensor data is unknown by using the CTC. This makes it possible to learn between time series.
  • the phoneme symbol string PS1 may be any phoneme symbol string as long as it can be recognized by a voice reproduction device such as a synthesizer VS1.
  • a voice reproduction device such as a synthesizer VS1 reproduces the recognized phoneme symbol string as a voice by converting it into a voice waveform. Then, the reproduced voice is used as input information to a peripheral device having a voice recognition function, for example.
  • the voice reproduction device such as the synthesizer VS1 provides the recognized phonetic symbol string as input information to the peripheral device having the voice recognition function.
  • the phoneme symbol string PS1 may be any phoneme symbol string as long as it can be recognized by the peripheral device NI11 to be controlled, in addition to the case where it is reproduced as voice.
  • the drive of the peripheral device NI 11 is controlled according to the recognized phoneme symbol string.
  • the functional configuration example of the information processing system 1B according to the second embodiment is the same as the functional configuration example of the information processing system 1A according to the first embodiment.
  • Control unit 110 converts the silent sensor data into information corresponding to the state in the oral cavity based on the algorithm acquired by machine learning. Specifically, the control unit 110 converts, for example, into a phoneme symbol string indicating the content of voice as information corresponding to the state in the oral cavity.
  • This algorithm has an NN 12, and the control unit 110 converts the input unvoiced sensor data into a phoneme symbol string via the NN 12. For example, the control unit 110 inputs the silent sensor data input from the communication unit 100 to the NN 12.
  • the NN12 can perform the silent utterance recognition process by outputting the phoneme symbol string from the input silent sensor data.
  • Machine learning unit 112 acquires an algorithm for converting unvoiced sensor data into a phonetic symbol string by machine learning. Specifically, the machine learning unit 112 acquires the algorithm NN12 for converting the unvoiced sensor data into a phoneme symbol string.
  • NN12 is obtained by machine learning using learning information including unvoiced sensor data and phonetic symbol strings.
  • the NN12 is obtained by machine learning using the silent sensor data when the speaker U12 reads the text unvoiced and the phonetic symbol string of the text read by the speaker U12 as learning information.
  • the control unit 110 can convert the unvoiced sensor data into a phoneme symbol string via the NN 12.
  • the processing control unit 114 accesses the storage unit 120 and performs conversion processing using the NN 12. Specifically, the processing control unit 114 inputs the silent sensor data acquired by the sensor device 20 input from the communication unit 100 to the NN 12.
  • the storage unit 120 stores the neural network NN12, which is an algorithm generated by machine learning in the control unit 110.
  • the control unit 110 accesses the storage unit 120 and uses the NN 12 when converting the unvoiced sensor data into a phoneme symbol string.
  • the communication unit 300 outputs the phoneme symbol string received from the information processing device 10 to the control unit 310.
  • Control unit 310 has a function of controlling the overall operation of the voice control device 30.
  • the control unit 310 reproduces the phoneme symbol string as voice by providing the acquired phoneme symbol string as input information to a voice reproduction device such as a synthesizer.
  • the control unit 310 can control the driving of the peripheral device having the voice recognition function, for example.
  • the control unit 310 can be used for human communication, for example.
  • the control unit 310 controls the drive of the peripheral device to be controlled according to the acquired phoneme symbol string. Specifically, the control unit 310 provides the acquired phoneme symbol string as input information to the peripheral device to be controlled.
  • FIG. 9 is a flowchart showing a flow of machine learning for generating the neural network NN12 according to the second embodiment.
  • the information processing device 10 acquires a phonetic symbol string obtained by converting the text presented to the speaker into a phonetic symbol string as learning information (S300). Further, the information processing device 10 acquires the silent sensor data when the speaker reads the text presented to the speaker silently as learning information (S302). Next, the information processing device 10 determines whether or not learning information equal to or higher than a predetermined threshold value has been acquired (S304).
  • the information processing device 10 when the information processing apparatus 10 acquires learning information equal to or greater than a predetermined threshold value (S304; YES), the information processing device 10 performs machine learning using the acquired learning information (S306). Then, the information processing device 10 stores the neural network NN12 generated by machine learning (S308). Further, when the information processing apparatus 10 has not acquired learning information equal to or greater than a predetermined threshold value (S304; NO), the information processing apparatus 10 repeats the processes of steps S300 to S304. The order of the processing of S300 and the processing of S302 is irrelevant, and either processing may be performed first or may be performed at the same time. Further, when the processing of S302 is performed before or at the same time as the processing of S300, in S300, the information processing device 10 acquires the phonetic symbol string obtained by converting the text presented to the speaker into the phonetic symbol string as learning information. ..
  • the information processing apparatus 10 has shown a case where the neural network NN12 having a GRU is used to output the phonetic symbol string PS1, but the present invention is not limited to this example.
  • the information processing apparatus 10 may output the phonetic symbol string PS1 using a neural network NN12 having a bidirectional gated recurrent unit (BiGRU) instead of the GRU.
  • the information processing device 10 is not limited to GRU and BiGRU, and any device used in a recurrent neural network (RNN) can be used to output the phonetic alphabet string PS1. good.
  • the conversion from the text to the phoneme symbol string and the conversion from the phoneme symbol string to the speech waveform according to the above embodiment are as long as they are existing technologies based on speech recognition processing. It may be realized by using any existing technology.
  • the conversion from the text to the phoneme symbol string and the conversion from the phoneme symbol string to the voice waveform according to the above embodiment are realized by using voice recognition software such as Espeak.
  • the information processing device 10 may reproduce the phoneme symbol string output from the NN 12 as sound by converting it into, for example, an acoustic waveform. Then, the information processing device 10 may provide the phonetic element symbol string output from the NN 12 as input information to a peripheral device having an acoustic recognition function by radiating the acoustic sound into the air as an acoustic sound.
  • the phoneme symbol string PS1 may be any phoneme symbol string as long as it can be recognized by an audio reproduction device such as a synthesizer VS1.
  • the control unit 310 may reproduce the phoneme symbol string as sound by providing the acquired phoneme symbol string as input information to an acoustic reproduction device such as a synthesizer.
  • Embodiment 3 Silent speech by voice feature amount> ⁇ 2.3.1. Function overview>
  • a neural network based on the correspondence between the input information and the output information is generated by using Softmax or CTC is shown.
  • the voice feature amount is not output via the generated neural network, it is not always possible to completely reproduce the voice of the speaker. Therefore, in the third embodiment, the voice feature amount itself is output by generating a neural network learned to estimate the voice feature amount at a predetermined time. Further, in the third embodiment, since the voice feature amount is output, it is possible to reproduce the voice without converting it into a voice waveform by using a voice reproduction device such as a synthesizer.
  • the voice feature amount is not output as voice, but is output as input information to the peripheral device to be controlled, so that only the user who uses the earphone, the bone conduction earphone, or the like is used. It is possible to be able to hear what kind of voice the speaker is uttering.
  • the same description as in the first and second embodiments will be omitted as appropriate.
  • the voice feature amount is, for example, information that can be recognized by a voice recognition device.
  • the voice feature amount is a spectrogram that three-dimensionally shows the time-series changes of voice features such as the pitch and intensity of voice depending on, for example, frequency, amplitude, and time.
  • the voice feature amount may be a vector indicating the voice feature amount.
  • FIG. 10 is a diagram showing an outline of the functions of the information processing system 1 according to the third embodiment (hereinafter, referred to as “information processing system 1C” in the third embodiment).
  • the information processing system 1C is a neural trained to estimate a voice feature amount at a predetermined time by using a value of unvoiced sensor data at a predetermined time (hereinafter, referred to as “sensor value”) as input information.
  • a network NN1 (hereinafter referred to as "NN13" in the third embodiment) is generated.
  • the sensor device 20 acquires the sensor value SD13 of the silent sensor data.
  • the sensor value SD23 of the unvoiced sensor data at a predetermined time is input to the NN13.
  • the sensor value SD23 of the silent sensor data corresponding to a predetermined period before and after a predetermined time is input to the NN13.
  • the sensor value SD23 of the input unvoiced sensor data is converted into the voice feature amount SV23 via the NN 13.
  • the voice feature amount SV13 is output by individually inputting the sensor value SD23 of the unvoiced sensor data into the NN13.
  • the voice feature amount SV13 is output by combining the individually converted voice feature amount SV23 in time series.
  • the voice feature amount SV13 in which the individually converted voice feature amounts are combined is reproduced as the voice VS12 (S21). Then, the reproduced voice VS 12 is used as input information to the peripheral device NI 12 having a voice recognition function (S22). Further, the voice feature amount SV13 may be directly provided as input information to the peripheral device NI12 (S23).
  • the sensor value (Xt) of the silent sensor data at a predetermined time (t) is calculated by the following formula (1).
  • D represents the number of dimensions of the silent sensor data. In FIG. 10, since the number of dimensions of the silent sensor data is 12, d is 12. The d may or may not be expressed.
  • t represents a predetermined time.
  • the voice feature amount (Yt) at a predetermined time (t) is calculated by the following formula (2).
  • G (Xt) represents NN13 for estimating the voice feature amount (Yt).
  • Xt represents a series of sensor values in the period from time (tl) to time (t + k). Note that time (t). The period from ⁇ l) to the time (t + k) can be expressed as (d, l + k) in terms of the number of dimensions.)
  • “12” shown in the silent sensor data SD13 indicates the number of dimensions of the sensor that acquired the silent sensor data SD13
  • “32” indicates the number of samples of the silent sensor data SD13.
  • NN13 has convolution layers C1 to C3 and the like.
  • NN13 has gated recurrent units (GRU) G1 and G2 and the like after the convolution layer.
  • GRU gated recurrent units
  • the NN 13 can more appropriately reflect the sequence of sensor values by using the GRU.
  • the NN 13 can output a voice feature amount that more appropriately reflects the sequence of sensor values by using the GRU.
  • the functional configuration example of the information processing system 1C according to the third embodiment is the same as the functional configuration example of the information processing system 1A according to the first embodiment.
  • Control unit 110 converts the sensor value of the silent sensor data at a predetermined time into information corresponding to the state in the oral cavity based on the algorithm acquired by machine learning. Specifically, the control unit 110 converts, for example, a voice feature amount as information corresponding to the state in the oral cavity.
  • This algorithm has an NN 13, and the control unit 110 converts the sensor value of the unvoiced sensor data into a voice feature amount via the NN 13.
  • the control unit 110 inputs the sensor value of the silent sensor data input from the communication unit 100 to the NN 13.
  • the NN 13 can perform the voiceless speech recognition process by outputting the voice feature amount from the sensor value of the input voiceless sensor data.
  • Machine learning unit 112 acquires an algorithm for converting the sensor value of the unvoiced sensor data at a predetermined time into a voice feature amount by machine learning. Specifically, the machine learning unit 112 acquires the algorithm NN13 for converting the sensor value of the silent sensor data into the voice feature amount.
  • NN13 is obtained by machine learning using learning information including a sensor value of unvoiced sensor data at a predetermined time and a voice feature amount at a corresponding predetermined time.
  • the NN 13 is obtained by machine learning using the sensor value of the unvoiced sensor data when the speaker U12 reads out the text unvoiced and the corresponding voice feature amount as learning information.
  • the control unit 110 can convert the sensor value of the unvoiced sensor data into a voice feature amount via the NN 13.
  • the processing control unit 114 accesses the storage unit 120 and performs conversion processing using the NN 13. Specifically, the processing control unit 114 inputs the sensor value of the silent sensor data acquired by the sensor device 20 input from the communication unit 100 to the NN 13.
  • the storage unit 120 stores the neural network NN13, which is an algorithm generated by machine learning in the control unit 110.
  • the control unit 110 accesses the storage unit 120 and uses the NN 13 when converting the sensor value of the unvoiced sensor data into the voice feature amount.
  • Voice control device 30 (2-1) Communication unit 300
  • the communication unit 300 outputs the voice feature amount received from the information processing device 10 to the control unit 310.
  • Control unit 310 has a function of controlling the overall operation of the voice control device 30. For example, the control unit 310 reproduces the acquired voice feature amount as voice. Further, as another example of providing the acquired voice feature amount, the control unit 310 controls the drive of the peripheral device to be controlled according to the acquired voice feature amount. Specifically, the control unit 310 does not reproduce the acquired voice feature amount as voice, but provides it as input information to a peripheral device to be controlled. As a result, the control unit 310 does not provide the voice feature amount as voice, but provides it as input information, so that only the user who uses the earphone, the bone conduction earphone, or the like can hear what kind of voice the speaker has. You can be able to hear if you are uttering.
  • FIG. 11 is a flowchart showing the flow of machine learning for generating the neural network NN13 according to the third embodiment.
  • the information processing device 10 acquires the sensor value of the silent sensor data when the speaker reads the text presented to the speaker silently as learning information (S400). Further, the information processing device 10 acquires the amount of voice features when the speaker reads out the text presented to the speaker silently as learning information (S402). Next, the information processing device 10 determines whether or not learning information equal to or greater than a predetermined threshold value has been acquired (S404).
  • the information processing apparatus 10 acquires learning information equal to or greater than a predetermined threshold value (S404; YES)
  • the information processing device 10 performs machine learning using the acquired learning information (S406).
  • the information processing device 10 stores the neural network NN13 generated by machine learning (S408).
  • the processing of steps S400 to S404 is repeated.
  • the order of the processing of S400 and the processing of S402 is irrelevant, and either processing may be performed first or may be performed at the same time.
  • the information processing apparatus 10 outputs the voice feature amount SV23 by using the neural network NN13 having the GRU, but the present invention is not limited to this example.
  • the information processing device 10 may output the voice feature amount SV23 by using the neural network NN13 having a BiGRU instead of the GRU.
  • the information processing device 10 is not limited to RNNs such as GRU, BiGRU, and LSTM, and any device may be used to output the voice feature amount SV23.
  • the information processing device 10 may output the voice feature amount SV23 by using, for example, the fully connected layer used in the NN 11.
  • the information processing apparatus 10 inputs the sensor value in the period from the time (tl) to the time (t + k) into the NN 13 is shown, but the present invention is not limited to this example.
  • the information processing apparatus 10 is not limited to the case of inputting the sensor value in the period including the time before and after the time (t), and inputs the sensor value in the period including only the time before the time (t) into the NN 13. By doing so, the voice feature amount SV23 may be output.
  • the information processing device 10 is learned to estimate the acoustic feature amount at a predetermined time by using the sensor value of the silent sensor data at a predetermined time as input information.
  • the acoustic feature amount may be output by using the NN13.
  • the acoustic feature amount is information that can be recognized by, for example, an acoustic recognition device.
  • the acoustic feature quantity is a spectrogram that three-dimensionally shows the time-series changes of acoustic features such as the level and intensity of acoustics depending on, for example, frequency, amplitude, and time.
  • the acoustic feature amount may be a vector indicating the acoustic feature amount.
  • the control unit 310 may reproduce the acquired acoustic features as acoustics.
  • Embodiment 4 Silent speech using line-of-sight recognition> ⁇ 2.4.1. Overview>
  • the case where the silent utterance recognition process is performed by acquiring the silent utterance sensor data is shown.
  • the recognition accuracy of the silent utterance recognition may be lower than that when the speaker actually utters a voice.
  • careless movements around the mouth may be interpreted as utterances. Therefore, in the fourth embodiment, we propose a silent utterance recognition process that also uses line-of-sight recognition. Specifically, in the fourth embodiment, the silent utterance recognition process is performed only on the gaze target (object) to which the speaker is looking.
  • the recognition accuracy of the silent utterance recognition can be improved. Further, in the line-of-sight interface, there is a possibility that a midas touch problem of the line of sight, which randomly triggers all the gaze targets to which the line of sight is directed, may occur. By combining the line-of-sight recognition and the silent utterance recognition, it is possible to solve the midas touch problem of the line of sight.
  • FIG. 12 is a diagram showing a configuration example of the information processing system 1D.
  • the information processing system 1D includes an information processing device 10, a sensor device 20, a voice control device 30, and a line-of-sight detection device 40.
  • Various devices can be connected to the information processing device 10.
  • a sensor device 20, a voice control device 30, and a line-of-sight detection device 40 are connected to the information processing device 10, and information can be transmitted between the devices.
  • the information processing device 10 is wirelessly connected to the sensor device 20, the voice control device 30, and the line-of-sight detection device 40.
  • the information processing device 10 includes the sensor device 20, the voice control device 30, and the line-of-sight.
  • Short-range wireless communication is performed using the detection device 40 and Bluetooth (registered trademark).
  • the information processing device 10, the sensor device 20, the voice control device 30, and the line-of-sight detection device 40 may be connected by wire to the information processing device 10. , May be connected via a network.
  • the same description as in the first to third embodiments will be omitted as appropriate.
  • the information processing device 10 performs a process of recognizing the line of sight of the speaker. For example, the information processing device 10 measures the line of sight of the speaker and recognizes the gaze target on the screen (screen) that the speaker is gaze at.
  • the gaze target is, for example, imaging information or text information.
  • the information processing device 10 performs processing related to line-of-sight recognition in the information processing device 10 based on the information received from the line-of-sight detection device 40.
  • the information processing device 10 controls processing related to silent utterance recognition in the information processing device 10 based on information received from the sensor device 20, the voice control device 30, and the line-of-sight detection device 40. Further, the information processing device 10 may control the operation of the line-of-sight detection device 40 and the like.
  • the line-of-sight detection device 40 is a line-of-sight detection device that detects the line of sight of the speaker.
  • the line-of-sight detection device 40 is a line-of-sight detection device that uses an eye tracking technique such as an eye tracker.
  • the line-of-sight detection device 40 acquires line-of-sight data to which the speaker is looking.
  • the line-of-sight detection device 40 acquires line-of-sight data by using a line-of-sight detection technique widely used in the line-of-sight interface. Then, the line-of-sight detection device 40 transmits the acquired line-of-sight data to the information processing device 10.
  • the line-of-sight detection device 40 may be realized as any device as long as it is a device for detecting the line of sight of the speaker.
  • the line-of-sight detection device 40 may be realized as a wearable type device worn by a speaker, or may be realized as a remote type device.
  • FIG. 13 is a diagram showing an outline of the functions of the information processing system 1D.
  • a jacket of a music album is displayed as an example of the gaze target TI11.
  • the information processing device 10 first recognizes the gaze target TI 11 via the line of sight detection device 40. Specifically, the information processing device 10 controls so that the line-of-sight target information TV 11, which is information indicating an object to which the speaker is looking, is displayed on the screen SU 11. As a result, the information processing device 10 can make the object to which the speaker is looking at visible, so that the usability of the speaker can be improved.
  • the line-of-sight target information TV 11 which is information indicating an object to which the speaker is looking
  • the information processing device 10 since the gaze target information TV 11 is displayed on the gaze target TI 11, the information processing device 10 recognizes the gaze target TI 11 indicated by the gaze target information TV 11 (S31). Next, the information processing device 10 controls the information group SC11 related to the recognized gaze target TI11 so as to be displayed on the screen SU11 (S32). Then, the information processing device 10 controls so that the information SP 11 that prompts the speaker to speak without utterance is displayed. In FIG. 13C, “Say (silently)“ play ”” is displayed as the information SP11.
  • the information group SC11 is operation information for operating an object to which the speaker is looking.
  • “play”, “stop”, “next”, and “back” are displayed as an example of the information group SC11 related to the gaze target TI11.
  • the displayed "play” indicates the playback of music.
  • the displayed "stop” indicates that the music has stopped.
  • the displayed "next” indicates the reproduction of the music to be reproduced next.
  • the displayed "back” indicates the reproduction of the music played immediately before.
  • the information processing device 10 can operate the jacket intended by the speaker by using the line-of-sight recognition together. ..
  • FIG. 14 is a block diagram showing a functional configuration example of the information processing system 1D according to the fourth embodiment.
  • the communication unit 100 outputs, for example, the line-of-sight data received from the line-of-sight detection device 40 to the control unit 110.
  • the communication unit 100 transmits, for example, information regarding acquisition of line-of-sight data input from the control unit 110 to the line-of-sight detection device 40.
  • Control unit 110 -Processing control unit 114 The processing control unit 114 has a function of performing line-of-sight recognition processing. For example, the processing control unit 114 recognizes the gaze target on the screen that the speaker is gaze at based on the gaze data input from the communication unit 100.
  • the processing control unit 114 determines the processing to be executed based on the result of the line-of-sight recognition processing. For example, the processing control unit 114 extracts an information group having a plurality of information related to the gaze target on the screen that the speaker is gaze at, based on the result of the line-of-sight recognition process. Then, the processing control unit 114 provides the extracted information group to an external device or the like that displays the gaze target via the communication unit 100. The external device or the like displays the information group provided by the processing control unit 114 on the screen. Then, the processing control unit 114 provides the result of the voiceless utterance recognition processing to the voice control device 30 via the communication unit 100 based on the result of the voiceless utterance recognition processing for the extracted information group.
  • the process control unit 114 may determine the process to be executed based on the result of the line-of-sight recognition process. For example, the processing control unit 114 determines a process to be executed when the gaze time is equal to or longer than a predetermined threshold value based on whether or not the gaze time of the speaker with respect to the gaze target on the screen is equal to or longer than a predetermined threshold value. You may. As another example, the processing control unit 114 determines the processing to be executed when the speaker acquires the speaker's unvoiced sensor data via the communication unit 100 while the speaker is gazing at the gaze target on the screen. May be good.
  • the line-of-sight detection device 40 includes a communication unit 400, a control unit 410, and a line-of-sight data acquisition unit 420.
  • the communication unit 400 has a function of communicating with an external device. For example, the communication unit 400 outputs information received from the external device to the control unit 410 in communication with the external device. Specifically, the communication unit 400 outputs information regarding acquisition of line-of-sight data received from the information processing device 10 to the control unit 410.
  • the communication unit 400 transmits the information input from the control unit 410 to the external device in the communication with the external device. Specifically, the communication unit 400 transmits the line-of-sight data input from the control unit 410 to the information processing device 10.
  • Control unit 410 has a function of controlling the overall operation of the line-of-sight detection device 40.
  • the control unit 410 controls the line-of-sight data acquisition process by the line-of-sight data acquisition unit 420.
  • the control unit 410 controls a process in which the communication unit 400 transmits the line-of-sight data acquired by the line-of-sight data acquisition unit 420 to the information processing device 10.
  • Line-of-sight data acquisition unit 420 has a function of acquiring line-of-sight data.
  • the line-of-sight data acquisition unit 420 acquires line-of-sight data using the line-of-sight detector provided in the line-of-sight detection device 40.
  • FIG. 15 is a flowchart showing a flow of processing in the information processing device 10 according to the fourth embodiment.
  • the information processing device 10 acquires line-of-sight data (S600). Further, the information processing device 10 recognizes the gaze target that the speaker is gaze at based on the acquired gaze data (S602). Next, the information processing device 10 extracts a group of information related to the recognized gaze target (S604). Next, the information processing device 10 provides control information so that the extracted information group is displayed (S606). Then, the information processing device 10 determines whether or not the silent sensor data has been acquired (S608). Then, when the information processing device 10 does not acquire the silent sensor data (S608; NO), the information processing device 10 ends the information processing.
  • the information processing device 10 acquires the silent sensor data (S608; YES), the information processing device 10 inputs the acquired silent sensor data to the neural network NN1 (NN11 to 13), and based on the output voice data, the information processing device 10 inputs the acquired voiceless sensor data. Estimate the speaker's speech (S610). Then, the information processing device 10 determines whether or not the information related to the estimated utterance of the speaker is included in the extracted information group (S612). Then, when the information related to the estimated speaker's utterance is included in the extracted information group (S612; YES), the information processing device 10 performs a process corresponding to the information related to the estimated speaker's utterance. Execute (S614). Further, when the information related to the estimated speaker's utterance is not included in the extracted information group (S612; NO), the information processing device 10 displays information indicating that processing such as an error cannot be executed. The control information is provided (S616).
  • Gaze target in line-of-sight recognition In the above embodiment, the case where the processing control unit 114 recognizes the gaze target on the screen is shown, but it is not limited to the gaze target on the screen and is displayed on any display target. You may recognize the gaze object to be watched. For example, the processing control unit 114 may recognize a gaze object projected on a display object such as a wall or a floor via a projector.
  • the processing control unit 114 shows a case where the processing control unit 114 extracts an information group having a plurality of information related to the gaze target that the speaker is watching. Not limited to the group, a single piece of information may be extracted as an information group. In this case, the processing control unit 114 determines whether or not the information related to the speaker's utterance estimated from the silent sensor data is the extracted information.
  • the processing control unit 114 may control the information group SC11 to be displayed in the area where the gaze target TI11 is displayed on the screen SU11. Further, in the above embodiment, the case where the information group SC11 is displayed on the screen SU11 is shown, but the processing control unit 114 may be controlled so as to be displayed on the screen of the external display device. Further, the processing control unit 114 does not have to control so that the information group SC11 is displayed.
  • the processing control unit 114 extracts the information group related to the gaze target of the speaker based on the result of the line-of-sight recognition process, and the extracted information.
  • the case where the result of the silent utterance recognition process is provided to the voice control device 30 based on the result of the silent utterance recognition process for the group is shown.
  • the processing control unit 114 may provide the result of the silent utterance recognition processing to the voice control device 30 without extracting the information group related to the gaze target of the speaker.
  • the processing control unit 114 determines whether or not to provide the result of the silent utterance recognition processing to the voice control device 30 via the communication unit 100 based on the result of the line-of-sight recognition processing.
  • the processing control unit 114 may determine whether or not to provide the result of the silent utterance recognition processing to the voice control device 30 via the communication unit 100 based on the result of the line-of-sight recognition processing. good. For example, when the speaker speaks, the processing control unit 114 transmits the result of the silent utterance recognition process via the communication unit 100 when the speaker is gazing at the gaze target related to the speaker's utterance. , Determined to be provided to the voice control device 30.
  • the processing control unit 114 may perform a process of converting the unvoiced sensor data into voice data.
  • the processing control unit 114 may perform a process of converting the unvoiced sensor data into voice data when, for example, the speaker makes an utterance about the gaze target while the speaker is gaze at the gaze target. ..
  • the information processing device 10 and the line-of-sight detection device 40 are separate devices, but the information processing device 10 and the line-of-sight detection device 40 may be integrated. .. Similarly, the sensor device 20 and the line-of-sight detection device 40 may be integrated. Similarly, the voice control device 30 and the line-of-sight detection device 40 may be integrated. Similarly, the information processing device 10, the sensor device 20, the voice control device 30, and the line-of-sight detection device 40 may be integrated.
  • the notation of "play” is used in order to encourage the speaker's utterance by no utterance of "play” in the information group SC11.
  • the case where "Say (silently)" play "" is displayed is shown, but the present invention is not limited to this example.
  • the processing control unit 114 may control the character information of "play” so as to be displayed in a notation surrounded by a figure such as a square or a circle.
  • the processing control unit 114 controls to display the notation in which the character information of "" play "" is highlighted by changing the color of the character information of "" play "”. good.
  • the processing control unit 114 may control the information SP 11 to be displayed in the area where the gaze target TI 11 is displayed on the screen SU 11. Further, in the above embodiment, the case where the information SP 11 is displayed on the screen SU 11 is shown, but the processing control unit 114 may be controlled so as to be displayed on the screen of the external display device. Further, the processing control unit 114 does not have to control so that the information SP 11 is displayed.
  • the information processing system 1 according to the embodiment can be applied as a vocal support device for a person having a vocal cord defect or a hearing impaired person.
  • a technique for example, Yourtone (registered trademark)
  • a button-controllable vibrator is pressed against the pharynx to replace the vocal cords.
  • a person who has lost the function of the vocal cords can utter a voice without vibrating the vocal cords.
  • the vibrator since the vibrator emits a loud sound, it may occur that the voice of the utterance passing through the oral cavity is disturbed.
  • the speaker can adjust the volume of this loud sound, and such a loud sound can be an unpleasant sound for the speaker.
  • the information acquired by the sensor device 20 is converted into a voice feature amount, and this voice feature amount is uttered as a voice waveform. There are no disturbing or unpleasant sounds.
  • the speaker can also freely adjust the volume of the voice generated from the information processing system 1. Therefore, even a person who has lost the function of the vocal cords can use the information processing system 1 according to the embodiment more comfortably.
  • the sensor device 20 by embedding the sensor device 20 in the skin, it may be possible to wear it at all times. By embedding the sensor device 20 in the skin, the positional relationship between the part of the skin in which the sensor device 20 is embedded and the sensor device 20 can always be the same, so that the accuracy of estimating the sound can be improved. Can be. Further, by embedding the sensor device 20 having the electromagnetic transfer coil in the skin, electric power can also be supplied from the coil outside the skin.
  • the information processing system 1 according to the embodiment can be applied to a secret utterance (silent speech (silent voice)).
  • Silent speech is generally considered to ensure the confidentiality of the utterance, but if image-based lip reading technology advances, it is possible that the content of the utterance can be estimated by imaging the movement of the mouth during the utterance. be.
  • Image-based confidentiality When using utterance recognition methods, the mouth cannot be hidden, which can be a security risk.
  • the speaker since it is not necessary to image the mouth, for example, the speaker may be able to hide the utterance from the lip reading simply by covering the mouth with his / her hand. That is, in the information processing system 1 according to the embodiment, for example, it may be possible to avoid the risk of lip reading based on an image simply by covering the mouth with a hand.
  • the information processing system 1 according to the embodiment can be widely applied in a situation where the eyes and mouth can be used but the hands are difficult to use by using the line-of-sight recognition together.
  • the information processing system 1 can be applied as a device operating means for a person who is capable of gaze and silent speech, although the body is not free.
  • the information processing system 1 can be applied as a device operating means when a hand is used for other operations such as when cooking or driving.
  • HMD Head Mounted Display
  • FIG. 2B shows a case where the above embodiment can be realized by providing the sensor device 20 in overhead headphones.
  • FIG. 16A shows a case where the sensor device 20 is provided in the inner ear type or the completely wireless type headphones.
  • the sensor device 20 shown in FIG. 16A is provided inside a portion of the headphones KS13 that is in contact with the speaker U12 below the ear (sensor position SL5 shown in FIG. 3) due to the structure of the inner ear type or completely wireless type headphones. Has been done.
  • FIG. 16A shows a case where the sensor device 20 is provided in the inner ear type or the completely wireless type headphones.
  • the sensor device 20 shown in FIG. 16A is provided inside a portion of the headphones KS13 that is in contact with the speaker U12 below the ear (sensor position SL5 shown in FIG. 3) due to the structure of the inner ear type or completely wireless type headphones. Has been done.
  • FIG. 16B shows a case where the open ear type headphones are provided.
  • the sensor device 20 shown in FIG. 16B is provided inside the portion of the headphone KS14 that is in contact with the speaker U12 below the ear (sensor position SL5 shown in FIG. 3) due to the structure of the open ear type headphones.
  • the example shown in FIGS. 16A and 16B is also an example, and the above embodiment may be realized by providing the sensor device 20 in any type of headphones. Of course, the above embodiment may be realized by the sensor device 20 functioning as a part of any device, not limited to the headphones.
  • FIG. 17 is a block diagram showing a hardware configuration example of the information processing device according to the embodiment.
  • the information processing device 900 shown in FIG. 17 can realize, for example, the information processing device 10, the sensor device 20, and the voice control device 30 shown in FIGS. 5 and 14, respectively.
  • the information processing by the information processing device 10, the sensor device 20, and the voice control device 30 according to the embodiment is realized by the cooperation between the software and the hardware described below.
  • the information processing device 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, and a RAM (Random Access Memory) 903.
  • the information processing device 900 includes a host bus 904a, a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 910, and a communication device 911.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, the hardware configuration may further include components other than the components shown here.
  • the CPU 901 functions as, for example, an arithmetic processing device or a control device, and controls all or a part of the operation of each component based on various programs recorded in the ROM 902, the RAM 903, or the storage device 908.
  • the ROM 902 is a means for storing a program read into the CPU 901, data used for calculation, and the like.
  • a program read into the CPU 901 various parameters that change as appropriate when the program is executed, and the like are temporarily or permanently stored. These are connected to each other by a host bus 904a composed of a CPU bus or the like.
  • the CPU 901, ROM 902, and RAM 903 can realize the functions of the control unit 110, the control unit 210, and the control unit 310 described with reference to FIG. 5, for example, in collaboration with software.
  • the CPU 901, ROM 902, and RAM 903 are connected to each other via, for example, a host bus 904a capable of high-speed data transmission.
  • the host bus 904a is connected to the external bus 904b, which has a relatively low data transmission speed, via, for example, the bridge 904.
  • the external bus 904b is connected to various components via the interface 905.
  • the input device 906 is realized by a device such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever, in which information is input by a speaker. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or an externally connected device such as a mobile phone or PDA that supports the operation of the information processing device 900. .. Further, the input device 906 may include, for example, an input control circuit that generates an input signal based on the information input by the speaker using the above input means and outputs the input signal to the CPU 901. By operating the input device 906, the speaker of the information processing device 900 can input various data to the information processing device 900 and instruct the processing operation.
  • the input device 906 may be formed by a device that detects information about the speaker.
  • the input device 906 includes an image sensor (for example, a camera), a depth sensor (for example, a stereo camera), an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, a sound sensor, and a distance measuring sensor (for example, ToF (Time of Flight). ) Sensors), may include various sensors such as force sensors.
  • the input device 906 includes information on the state of the information processing device 900 itself such as the posture and moving speed of the information processing device 900, and information on the surrounding environment of the information processing device 900 such as brightness and noise around the information processing device 900. May be obtained.
  • the input device 906 receives a GNSS signal (for example, a GPS signal from a GPS (Global Positioning System) satellite) from a GNSS (Global Navigation Satellite System) satellite and receives position information including the latitude, longitude and altitude of the device. It may include a GPS module to measure. Further, regarding the position information, the input device 906 may detect the position by transmission / reception with Wi-Fi (registered trademark), a mobile phone / PHS / smartphone, or short-range communication. The input device 906 can realize, for example, the function of the sensor data acquisition unit 220 described with reference to FIG.
  • a GNSS signal for example, a GPS signal from a GPS (Global Positioning System) satellite
  • GNSS Global Navigation Satellite System
  • the output device 907 is formed of a device capable of visually or audibly notifying the speaker of the acquired information.
  • Such devices include display devices such as CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, laser projectors, LED projectors and lamps, audio output devices such as speakers and headphones, and printer devices. ..
  • the output device 907 outputs, for example, the results obtained by various processes performed by the information processing device 900.
  • the display device visually displays the results obtained by various processes performed by the information processing device 900 in various formats such as texts, images, tables, and graphs.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, etc. into an analog signal and outputs it audibly.
  • the output device 907 can realize, for example, the function of the control unit 310 described with reference to FIG.
  • the storage device 908 is a data storage device formed as an example of the storage unit of the information processing device 900.
  • the storage device 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deleting device that deletes the data recorded on the storage medium, and the like.
  • the storage device 908 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the storage device 908 can realize, for example, the function of the storage unit 120 described with reference to FIG.
  • the drive 909 is a reader / writer for a storage medium, and is built in or externally attached to the information processing device 900.
  • the drive 909 reads information recorded on a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information to the removable storage medium.
  • connection port 910 is a port for connecting an external connection device such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small SCSI System Interface), an RS-232C port, or an optical audio terminal. ..
  • the communication device 911 is, for example, a communication interface formed by a communication device or the like for connecting to the network 920.
  • the communication device 911 is, for example, a communication card for a wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), WUSB (Wireless USB), or the like.
  • the communication device 911 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, or the like.
  • the communication device 911 can transmit and receive signals and the like to and from the Internet and other communication devices in accordance with a predetermined protocol such as TCP / IP.
  • the communication device 911 can realize, for example, the functions of the communication unit 100, the communication unit 200, and the communication unit 300 described with reference to FIG.
  • the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
  • the network 920 may include a public network such as the Internet, a telephone line network, a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), and a WAN (Wide Area Network).
  • the network 920 may include a dedicated line network such as IP-VPN (Internet Protocol-Virtual Private Network).
  • the above is an example of a hardware configuration capable of realizing the functions of the information processing apparatus 900 according to the embodiment.
  • Each of the above components may be realized by using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to appropriately change the hardware configuration to be used according to the technical level at each time when the embodiment is implemented.
  • the information processing device 10 corresponds to the state in the oral cavity based on the algorithm acquired by machine learning for the silent sensor data acquired by measuring the skin movement during utterance. Convert to information to be processed. As a result, the information processing device 10 converts unvoiced sensor data indicating skin movement when the user intentionally moves an object in the oral cavity such as the tongue or the jaw without speaking, into voice data. Can be done.
  • each device described in the present specification may be realized as a single device, or a part or all of the devices may be realized as separate devices.
  • the information processing device 10, the sensor device 20, and the voice control device 30 shown in FIG. 5 may be realized as independent devices.
  • it may be realized as a server device connected to the information processing device 10, the sensor device 20, and the voice control device 30 via a network or the like.
  • the server device connected by a network or the like may have the function of the control unit 110 of the information processing device 10.
  • each device described in the present specification may be realized by using any of software, hardware, and a combination of software and hardware.
  • the programs constituting the software are stored in advance in, for example, a recording medium (non-temporary medium: non-transitory media) provided inside or outside each device. Then, each program is read into RAM at the time of execution by a computer and executed by a processor such as a CPU.
  • a control unit that converts sensor data acquired by measuring skin movement during an utterance into information corresponding to the content of the utterance.
  • Information processing device (2)
  • the control unit converts the sensor data into voice data corresponding to the content of the utterance.
  • the control unit uses a neural network that inputs the sensor data to convert the sensor data into information corresponding to the content of the utterance.
  • the neural network is obtained by machine learning using learning information including a text and the sensor data when the text is read aloud silently.
  • the neural network is obtained by machine learning using learning information including a phonetic symbol string obtained by converting a text into a phonetic symbol and the sensor data when the text is read aloud silently.
  • the neural network responds to the content of the utterance by generating a plurality of voice features per unit time from the input sensor data at the time of no utterance and synthesizing the generated plurality of the voice features in chronological order. Generate information to The information processing device according to (3) above.
  • the audio feature is a spectrogram, The information processing device according to (6) above.
  • the control unit uses the sensor data to make the utterance when the speaker makes the utterance about the gaze target while the gaze target is gaze. Convert to information corresponding to the contents of The information processing device according to any one of (1) to (7) above.
  • the sensor data indicates the skin movement when the speaker moves at least one of the objects in the jaw or oral cavity without speaking.
  • the information processing device according to any one of (1) to (8) above.
  • the machine learning is performed by deep learning.
  • the machine learning is performed using a convolutional neural network.
  • Information processing system 10 Information processing device 20 Sensor device 30 Voice control device 40 Line-of-sight detection device 100 Communication unit 110 Control unit 112 Machine learning unit 114 Processing control unit 120 Storage unit 200 Communication unit 210 Control unit 220 Sensor data acquisition unit 300 Communication unit 310 Control unit 400 Communication unit 410 Control unit 420 Line-of-sight data acquisition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

ユーザが発声せずに意図した音声データを得る。実施形態に係る情報処理装置(10)は、発話の際の皮膚運動を計測することにより取得されるセンサデータを当該発話の内容に対応する情報に変換する制御部(110)を備える。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関する。
 近年、音声の認識精度の向上により、音声によるコマンドで制御可能な機器が普及してきている。例えば、スマートフォンやカーナビゲーション装置等では、この音声コマンドを用いて検索の機能を使用することが一般化してきている。また、音声により入力した内容を文書化する文書作成の技術が可能になってきている。さらに、音声コマンドにより動作するスピーカ型の音声インタフェース装置が普及してきている。例えば、スマートスピーカである。
特表2000-504848号公報
 しかしながら、音声コマンドを使用する状況は限定され得る。例えば、電車の中、図書館等の公共空間では、音声によりスマートフォン等を操作することは周囲の人に受け入れられ難いことが多い。また、公共空間では、個人情報等の秘匿性のある情報を声に出すことは、個人情報漏洩のリスクがある。そのため、音声コマンドを用いる音声インタフェースは、家庭内で使用されているスマートスピーカや、車内で使用されているカーナビゲーション装置のように、発生による周囲への影響が明確である場所での利用に限定されがちである。
 例えば、実際に音声を発することなく上記の機器等を操作することができれば、場所に限定されずに上記の機器等を利用することができる。具体的には、音声を発することなく機器を操作することが可能な機器を有するウェアラブルコンピュータであれば、このウェアラブルコンピュータを常時装着することで、場所を問わず常にサービスを得ることが可能となる。
 そこで、本開示では、ユーザが発声せずに意図した音声データを得ることが可能な、新規かつ改良された情報処理装置及び情報処理方法を提案する。
 本開示によれば、発話の際の皮膚運動を計測することにより取得されるセンサデータを当該発話の内容に対応する情報に変換する制御部を備える、情報処理装置が提供される。
 また、本開示によれば、発話の際の皮膚運動を計測することにより取得されるセンサデータを当該発話の内容に対応する情報に変換すること、を含む、プロセッサにより実行される情報処理方法が提供される。
 本開示によれば、ユーザが発話せずに意図した音声データを得ることが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
実施形態に係る情報処理システムの構成例を示す図である。 実施形態に係るセンサ装置の一例を示す図である。 実施形態に係るセンサ装置の装着位置の一例を示す図である。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理システムの構成例を示すブロック図である。 実施形態に係るニューラルネットワークを取得する機械学習の流れを示すフローチャートである。 実施形態に係る情報処理装置における処理の流れを示すフローチャートである。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理装置における処理の流れを示すフローチャートである。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理装置における処理の流れを示すフローチャートである。 実施形態に係る情報処理システムの構成例を示す図である。 実施形態に係る情報処理システムの機能の概要を示す図である。 実施形態に係る情報処理システムの構成例を示すブロック図である。 実施形態に係る情報処理装置における処理の流れを示すフローチャートである。 実施形態に係るセンサ装置の一例を示す図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の実施形態
  1.1.概要
  1.2.情報処理システムの構成
 2.情報処理システムの機能
  2.1.実施形態1:テキストによるサイレントスピーチ
   2.1.1.機能の概要
   2.1.2.機能構成例
   2.1.3.情報処理システムの処理
   2.1.4.処理のバリエーション
  2.2.実施形態2:音素記号列によるサイレントスピーチ
   2.2.1.機能の概要
   2.2.2.機能構成例
   2.2.3.情報処理システムの処理
   2.2.4.処理のバリエーション
  2.3.実施形態3:音声特徴量によるサイレントスピーチ
   2.3.1.機能の概要
   2.3.2.機能構成例
   2.3.3.情報処理システムの処理
   2.3.4.処理のバリエーション
  2.4.実施形態4:視線認識を併用するサイレントスピーチ
   2.4.1.概要
   2.4.2.情報処理システムの構成
   2.4.3.機能の概要
   2.4.4.機能構成例
   2.4.5.情報処理システムの処理
   2.4.6.処理のバリエーション
 3.応用例
  3.1.第1の応用例
  3.2.第2の応用例
  3.3.他の応用例
 4.ハードウェア構成例
 5.まとめ
<<1.本開示の実施形態>>
 <1.1.概要>
 近年、音声の認識精度の向上により、音声によるコマンドで制御可能な機器が普及してきている。例えば、スマートフォンやカーナビゲーション装置等では、この音声コマンドを用いて検索の機能を使用することが一般化してきている。また、音声により入力した内容を文書化する文書作成の技術が可能になってきている。さらに、音声コマンドにより動作するスピーカ型の音声インタフェース装置が普及してきている。例えば、スマートスピーカである。
 しかしながら、音声コマンドを使用する状況は限定され得る。例えば、電車の中、図書館等の公共空間では、音声によりスマートフォン等を操作することは周囲の人に受け入れられ難いことが多い。また、公共空間では、個人情報等の秘匿性のある情報を声に出すことは、個人情報漏洩のリスクがある。そのため、音声コマンドを用いる音声インタフェースは、家庭内で使用されているスマートスピーカや、車内で使用されているカーナビゲーション装置のように、発生による周囲への影響が明確である場所での利用に限定されがちである。
 例えば、実際に音声を発することなく上記の機器等を操作することができれば、場所に限定されずに上記の機器等を利用することができる。具体的には、音声を発することなく機器を操作することが可能な機器を有するウェアラブルコンピュータであれば、このウェアラブルコンピュータを常時装着することで、場所を問わず常にサービスを得ることが可能となる。そこで、音声を発することなく発話内容の認識を行うことが可能な無発声発話の認識技術に関する技術が進められている。
 上述の無発声発話の認識技術に関連し、例えば、特許文献1には、電磁波により音声器官の運動及び場所を検出して音声を識別する技術が開示されている。また、特許文献1に開示されている技術以外には、騒音環境で音声を確実に取得するための咽頭マイク及び喉に貼り付けるマイク等に関する研究も進められている。
 しかしながら、上述の無発声発話の認識技術は、ささやく程度には音声を発する必要があるため、公共空間における利用はまだ限定的である。また、より無発声に近づけようと、ささやく際の音量を小さくすると認識精度が低下し得る。
 本開示の実施形態では、上記の点に着目して発想されたものであり、ユーザ(話者)が発声せずに意図した音声データを得ることが可能な技術を提案する。以下、実施形態について順次詳細に説明する。以下、音響の一例として、音声を用いて説明する。
 <1.2.情報処理システムの構成>
 まず、実施形態に係る情報処理システム1の構成について説明する。図1は、情報処理システム1の構成例を示す図である。図1に示したように、情報処理システム1は、情報処理装置10、センサ装置20、及び音声制御装置30を備える。情報処理装置10には、多様な装置が接続され得る。例えば、情報処理装置10には、センサ装置20及び音声制御装置30が接続され、各装置間で情報の連携が行われる。情報処理装置10には、センサ装置20及び音声制御装置30が無線で接続される。例えば、情報処理装置10は、センサ装置20及び音声制御装置30とBluetooth(登録商標)を用いた近距離無線通信を行う。なお、情報処理装置10には、センサ装置20及び音声制御装置30が、有線と無線とを問わず、I2C(Inter-Integrated Circuit)やSPI(Serial Peripheral Interface)などの各種インタフェースや、LAN(Local Area Network)やWAN(Wide Area Network)やインターネットや移動体通信網などの各種ネットワークを介して接続されてもよい。
 (1)情報処理装置10
 情報処理装置10は、機械学習に基づく認識処理が可能な情報処理装置である。実施形態に係る認識処理は、例えば、無音声による発話内容の認識処理(以下、無音声発話認識処理という)である。この無音声発話認識処理は、例えば、発話の際の皮膚運動を計測することにより取得されるセンサデータに対して行われる。具体的には、情報処理装置10は、皮膚運動を示すセンサデータ(以下、皮膚運度を示すセンサデータを、適宜、「センサデータ」と称する。)を、音声に関する情報に変換し、変換した音声に関する情報に対して認識処理を行う。その場合、無音声発話認識処理の具体的内容は、音声認識処理と同様のものとすることが可能である。
 なお、実施形態では、話者が音声を発さずに、例えばリップシンク(口パクともいう)で口腔内の状態を変化させた際のセンサデータが、音声に関する情報に変換される。これにより、情報処理装置10は、無発声であっても発話内容を認識し得る。この場合のセンサデータは、話者が発声せずに舌などの口腔内の対象や顎を動かした際のセンサデータである。また、無発声時に口腔内の状態を変化させた際のセンサデータは、以下では、無発声センサデータとも称される。
 音声に関する情報は、例えば、音声の内容を示すテキスト(テキストデータ)や音素記号列、又は、音声の特徴量である音声特徴量等である。音声特徴量の詳細は後述する。
 音声に関する情報は、機械学習により取得されるアルゴリズムを用いて無発声センサデータから変換される。実施形態に係る機械学習は、例えば、ディープラーニングにより行われる。この機械学習により取得されるアルゴリズムは、例えば、ニューラルネットワーク(NN:Neural Network)である。なお、機械学習には入力として実際に無発声で読み上げた際の無発声センサデータが用いられる。そのため、機械学習は、音声処理のディープラーニングに適したコンボリューショナルニューラルネットワーク(CNN:Convolutional Neural Network)を用いて行われる。なお、実施形態では、無発声センサデータと出力情報(テキスト、音素記号列、音声特徴量)とが機械学習に用いられる。
 実施形態に係るアルゴリズム(ニューラルネットワーク)は、話者が音声を発さずに口腔内の状態を変化させた際の無発声センサデータを音声に関する情報(以下では、音声データとも称される。)に変換する処理を行うニューラルネットワーク(以下では、NN1とも称される)である。なお、NN1の詳細は後述される。
 また、情報処理装置10は、情報処理システム1の動作全般を制御する機能も有する。例えば、情報処理装置10は、各装置間で連携される情報に基づき、情報処理システム1の動作全般を制御する。具体的に、情報処理装置10は、センサ装置20及び音声制御装置30から受信する情報に基づき、情報処理装置10における無音声発話認識に関する処理を制御する。また、情報処理装置10は、センサ装置20の動作を制御してもよい。また、情報処理装置10は、音声制御装置30の動作を制御してもよい。
 情報処理装置10は、PC(Personal Computer)、WS(Work Station)等により実現される。なお、情報処理装置10は、PC、WS等に限定されない。例えば、情報処理装置10は、情報処理装置10としての機能をアプリケーションとして実装したPC、WS等の情報処理装置であってもよい。
 (2)センサ装置20
 センサ装置20は、話者の動きを検出するジェスチャーセンサである。具体的には、センサ装置20は、話者の体表の一部に接することで、話者の体表の運動を計測するミリ波センサである。例えば、センサ装置20は、ソリ(Soli)等のミリ波センサである。センサ装置20は、例えば、話者の体表の一部の皮膚運動を計測することにより、体表に接した部分以外の話者の体の他の部分の運動を計測する。センサ装置20は、話者の体の他の部分の運動を非接触で計測するため、ドップラーレーダーセンサでもある。例えば、センサ装置20は、話者の口唇、顎、喉等の運動を非接触で計測するドップラーレーダーセンサである。
 センサ装置20は、話者の発話の際のセンサデータを取得する。センサ装置20は、医療に広く使われている皮膚運動の検出技術を利用してセンサデータを取得する。ここで、センサデータとは、例えば加速度や角速度や超音波画像である。センサ装置20は、例えば加速度や角速度や超音波を検出可能な検出器を備え、話者の体表に接するようにセンサ装置20を付着させることで、加速度や角速度や超音波画像等のセンサデータを取得する。そして、センサ装置20は、取得したセンサデータを情報処理装置10へ送信する。
 センサ装置20は、皮膚運動を計測するための検出器を備えるセンサであれば、どのような装置として実現されてもよい。例えば、センサ装置20は、加速度を検出可能な検出器を備える加速度センサであってもよいし、角速度を検出可能な検出器を備える角速度センサであってもよいし、超音波を検出可能な検出器を備える超音波センサであってもよい。
 センサ装置20は、どのような形態の装置の一部として実現されてもよい。例えば、センサ装置20は、どのような形態の対象の一部として機能を有することにより、どのような形態の装置の一部として実現されてもよい。センサ装置20は、例えば、図2Aに示すように、テープKS11に直接貼り付けられることにより、テープ型の装置の一部として実現されてもよい。図2Aでは、センサ装置20が話者U12の顎の下(後述する図3に示すセンサ位置SL1)に位置するようにテープKS11を付着させる場合を示す。図2Aに示すセンサ装置20は、テープ型の装置としての構造上、テープKS11の中央部分の表面に備えられている。また、センサ装置20は、例えば、図2Bに示すように、ヘッドホンKS12のイヤパッドYP12に内包されることにより、ヘッドホン型の装置の一部として実現されてもよい。図2Bでは、センサ装置20が話者U12の耳下(後述する図3に示すセンサ位置SL5)に位置するようにヘッドホンKS12を付着させる場合を示す。図2Bに示すセンサ装置20は、ヘッドホン型の装置としての構造上、ヘッドホンKS12のイヤパッドYP12の内側に備えられている。これにより、センサ装置20は、発話の際の皮膚運動に応じて変化するセンサデータを取得することができる。
 センサ装置20は、例えば、図3に示す任意の位置に接するように付着されることにより、センサデータを取得する。ここで、図3に示すセンサ位置SL1乃至SL9の位置について説明する。センサ位置SL1は、話者U12の顎の下の右側の広頸筋の辺りの位置である。センサ位置SL2は、話者U12の顎の下の左側の広頸筋の辺りの位置である。センサ位置SL3は、話者U12の声帯の辺りの位置である。センサ位置SL4は、話者U12の右耳の耳介の辺りの位置である。センサ位置SL5は、話者U12の右側の咬筋の辺りの位置である。センサ位置SL6は、話者U12の右側の後耳介筋の辺りの位置である。センサ位置SL7は、話者U12の右側の笑筋の辺りの位置である。センサ位置SL8は、話者U12の右側の下唇下制筋の辺りの位置である。センサ位置SL9は、話者U12の口輪筋の右側の辺りの位置である。なお、図3に示す例は一例であり、センサデータを取得するために付着するセンサ装置20の位置は、これらの位置に限定されない。
 以下、実施形態では、3軸の加速度センサ及び3方向の回転を計測する角速度センサの計6自由度のセンサをセンサ装置20として話者U12の顎の下等の2箇所に添付して、話者U12が音声を発声せずに口腔内の状態を変化させた際の皮膚運動を計測することにより、無音声発話認識の処理を行うものとする。2箇所のセンサ装置20で、それぞれ6自由度であるので、計12次元のセンサデータが取得される。
 (3)音声制御装置30
 音声制御装置30は、音声データに応じて、例えば、制御対象である周辺機器の駆動を制御する装置である。周辺機器は、例えば、スマートスピーカである。例えば、音声制御装置30は、周辺機器の駆動の制御の一例として、音楽の再生及び停止や、音量の上げ下げを行う。音声制御装置30は、例えば、情報処理装置10が認識した内容を示す音声データを情報処理装置10から受信する。そして、音声制御装置30は、受信した音声データに応じて、例えば、周辺機器の駆動を制御する。すなわち、音声制御装置30は、空中に音声を放射することなく、周辺機器の駆動を制御するための入力情報として、音声データを提供する。これにより、音声制御装置30は、実際に音声を発することなく、周辺機器の駆動を制御することができる。
<<2.情報処理システムの機能>>
 以上、情報処理システム1の構成について説明した。続いて、情報処理システム1の機能について説明する。
 <2.1.実施形態1:テキストによるサイレントスピーチ>
 <2.1.1.機能の概要>
 図4は、実施形態1に係る情報処理システム1(実施形態1では、以下、「情報処理システム1Aと称する。)の機能の概要を示す図である。情報処理システム1Aは、まず、テキスト及びそのテキストを無発声で読み上げた際の無発声センサデータに基づく機械学習により、あらかじめNN1(実施形態1では、以下、「NN11」と称する。)を取得しておく。話者U12が音声を発さずに口腔内の状態を変化させた際に、センサ装置20は、無発声センサデータSD11を取得する。次いで、取得された無発声センサデータSD11は、NN11を介してテキストT1に変換される。テキストT1は、予め定められた複数のテキストの中から決定されたものである。
 NN11による変換処理後、変換されたテキストT1は、音声制御装置30の制御部310に入力される。そして、制御部310は、入力されたテキストT1に基づき、周辺機器SS1の駆動を制御するための処理を行う。
 無発声センサデータSD11に示す「12」は、センサデータの次元数を示す。無発声センサデータSD11に示す「100」は、時間の単位数を示す。この「100」は、例えば、50fpsの場合には2秒間に相当するものとする。この「100」は、話者U12がテキストT1を読み上げるのに十分な時間として設定された固定時間である。例えば、この「100」は、話者U12が「play」と読み上げるのに十分な時間として設定された固定時間である。
 NN11は、畳み込み層(Convolution Layer)を有する。例えば、NN11は、畳み込み層C1乃至C3等を有する。NN11は、畳み込み層の後に、全結合層(Fully Connected Layer(Dense Layer))を有する。例えば、NN11は、全結合層F1及びF2等を有する。NN11は、全結合層の後に、ソフトマックス(Softmax)を用いて、ワンホットベクトル(One-hot Vector)を決定する。例えば、NN1は、ソフトマックスS1を用いて、テキストT1をワンホットベクトルに決定する。
 テキストT1は、制御対象である周辺機器が認識可能な文字情報であれば、どのようなものであってもよい。テキストT1は、例えば、オープン(Open)、プレイ(Play)、イエス(Yes)、ノー(No)等の単語であってもよいし、ボリュームアップ(Volume Up)、ボリュームダウン(Volume Down)等の単語の組み合わせであってもよい。テキストT1は、周辺機器の駆動を制御するための制御情報でもあるため、コマンドとも称される。
 <2.1.2.機能構成例>
 図5は、実施形態1に係る情報処理システム1Aの機能構成例を示すブロック図である。
 (1)情報処理装置10
 図5に示したように、情報処理装置10は、通信部100、制御部110、及び記憶部120を備える。なお、情報処理装置10は、少なくとも制御部110を有する。
 (1-1)通信部100
 通信部100は、外部装置と通信を行う機能を有する。例えば、通信部100は、外部装置との通信において、外部装置から受信する情報を制御部110へ出力する。具体的には、通信部100は、センサ装置20から受信するセンサデータを制御部110へ出力する。
 通信部100は、外部装置との通信において、制御部110から入力される情報を外部装置へ送信する。具体的には、通信部100は、制御部110から入力されるセンサデータの取得に関する情報をセンサ装置20へ送信する。
 (1-2)制御部110
 制御部110は、情報処理装置10の動作を制御する機能を有する。例えば、制御部110は、無発声センサデータを、機械学習により取得したアルゴリズムに基づき口腔内の状態に対応する情報に変換する。具体的には、制御部110は、口腔内の状態に対応する情報として、例えば、音声の内容を示すテキストに変換する。このアルゴリズムは、NN11を有し、制御部110は、NN11を介して、入力された無発声センサデータをテキストに変換する。例えば、制御部110は、通信部100から入力される無発声センサデータをNN11へ入力する。NN11は、入力された無発声センサデータからワンホットベクトルを決定することで、無音声発話認識処理を行うことができる。よって、制御部110は、話者U12が音声を発さずとも、無発声センサデータに基づき無音声発話認識処理を行い、操作可能な周辺機器を制御することができる。
 上述の機能を実現するために、制御部110は、図5に示すように、機械学習部112、及び処理制御部114を有する。
 ・機械学習部112
 機械学習部112は、学習情報を用いた機械学習を行う機能を有する。機械学習部112は、機械学習により、無発声センサデータをテキストに変換するためのアルゴリズムを取得する。具体的には、機械学習部112は、無発声センサデータをテキストに変換するためのアルゴリズムNN11を取得する。
 NN11は、無発声センサデータと、テキストとを含む学習情報を用いた機械学習により得られる。例えば、NN11は、話者U12が無発声でテキストを読み上げた際の無発声センサデータと、話者U12により読み上げられたテキストとを学習情報として用いた機械学習により得られる。これにより、制御部110は、NN11を介して、無発声センサデータをテキストに変換することができる。
 なお、この学習情報は、例えば、話者U12にテキストを読み上げさせることにより取得する。これにより、テキストと、テキストに対応する無発声センサデータとを取得することができる。
 なお、NN11に関する機械学習は、特定の話者に依存することでより効果的に学習が行われる。そのため、機械学習は、特定の話者に依存させて行わせることが望ましい。
 ・処理制御部114
 処理制御部114は、制御部110における処理を制御する機能を有する。例えば、処理制御部114は、無音声発話認識処理を行う機能を有する。例えば、処理制御部114は、記憶部120にアクセスしてNN11を用いた変換処理を行う。具体的には、処理制御部114は、通信部100から入力されるセンサ装置20が取得した無発声センサデータをNN11へ入力する。
 処理制御部114は、無音声発話認識処理の結果に基づき、実行する処理を決定する。処理制御部114は、無音声発話認識処理の結果を、通信部100を介して、音声制御装置30へ提供する。
 (1-3)記憶部120
 記憶部120は、情報処理装置10における処理に関するデータを記憶する機能を有する。例えば、記憶部120は、制御部110における機械学習により生成されるアルゴリズムであるニューラルネットワークNN11を記憶する。制御部110は、無発声センサデータをテキストに変換する際に、記憶部120にアクセスしてNN11を利用する。
 また、記憶部120は、制御部110が機械学習に用いる学習情報を記憶してもよい。なお、記憶部120が記憶するデータは、上述の例に限定されない。例えば、記憶部120は、各種アプリケーション等のプログラムを記憶してもよい。
 (2)センサ装置20
 図4に示したように、センサ装置20は、通信部200、制御部210、及びセンサデータ取得部220を有する。
 (2-1)通信部200
 通信部200は、外部装置と通信を行う機能を有する。例えば、通信部200は、外部装置との通信において、外部装置から受信する情報を制御部210へ出力する。具体的に、通信部200は、情報処理装置10から受信する無発声センサデータの取得に関する情報を制御部210へ出力する。
 また、通信部200は、外部装置との通信において、制御部210から入力される情報を外部装置へ送信する。具体的に、通信部200は、制御部210から入力される無発声センサデータを情報処理装置10へ送信する。
 (2-2)制御部210
 制御部210は、センサ装置20の動作全般を制御する機能を有する。例えば、制御部210は、センサデータ取得部220による無発声センサデータの取得処理を制御する。また、制御部210は、センサデータ取得部220により取得された無発声センサデータを、通信部200が情報処理装置10へ送信する処理を制御する。
 (2-3)センサデータ取得部220
 センサデータ取得部220は、無発声センサデータを取得する機能を有する。例えば、センサデータ取得部220は、センサ装置20に備えられたセンサ検出器を用いて無発声センサデータを取得する。
 (3)音声制御装置30
 図4に示したように、音声制御装置30は、通信部300、制御部310を有する。
 (3-1)通信部300
 通信部300は、外部装置と通信を行う機能を有する。例えば、通信部300は、外部装置との通信において、外部装置から受信する情報を制御部310へ出力する。具体的に、通信部300は、情報処理装置10から受信するテキストを制御部310へ出力する。
 (3-2)制御部310
 制御部310は、音声制御装置30の動作全般を制御する機能を有する。例えば、制御部310は、取得したテキストに応じて、制御対象である周辺機器の駆動を制御する。具体的には、制御部310は、取得したテキストを制御対象である周辺機器への入力情報として提供する。
 <2.1.3.情報処理システムの処理>
 以上、実施形態1に係る情報処理システム1Aの機能について説明した。続いて、情報処理システム1Aの処理について説明する。
 (1)ニューラルネットワークNN11を取得する機械学習の流れ
 図6は、実施形態1に係るニューラルネットワークNN11を生成する機械学習の流れを示すフローチャートである。まず、情報処理装置10は、話者に提示されたテキストを学習情報として取得する(S100)。また、情報処理装置10は、話者に提示されたテキストを無発声で話者が読み上げた際の無発声センサデータを学習情報として取得する(S102)。次いで、情報処理装置10は、所定の閾値以上の学習情報を取得したか否かを判定する(S104)。そして、情報処理装置10は、所定の閾値以上の学習情報を取得した場合(S104;YES)、取得した学習情報を用いて機械学習を行う(S106)。そして、情報処理装置10は、機械学習により生成されるニューラルネットワークNN11を記憶する(S108)。また、情報処理装置10は、所定の閾値以上の学習情報を取得していない場合(S104;NO)、ステップS100乃至S104の処理を繰り返す。なお、S100の処理とS102の処理との順序に関係性はなく、どちらの処理が先に行われてもよいし、同時に行われてもよい。
 (2)情報処理装置10における処理
 図7は、実施形態1に係る情報処理装置10における処理の流れを示すフローチャートである。まず、情報処理装置10は、無発声センサデータを取得する(S200)。次いで、情報処理装置10は、取得した無発声センサデータをNN11へ入力し、無発声センサデータからテキストを取得する(S202)。次いで、情報処理装置10は、取得したテキストを制御対象である周辺機器への入力情報として提供する(S204)。
 <2.1.4.処理のバリエーション>
 以上、本開示の実施形態1について説明した。続いて、本開示の実施形態1の処理のバリエーションを説明する。なお、以下に説明する処理のバリエーションは、単独で本開示の実施形態1に適用されてもよいし、組み合わせで本開示の実施形態1に適用されてもよい。また、処理のバリエーションは、本開示の実施形態1で説明した構成に代えて適用されてもよいし、本開示の実施形態1で説明した構成に対して追加的に適用されてもよい。
(1)音声データの音声化
 上記実施形態では、情報処理装置10が、NN11から出力されるテキストを、制御対象である周辺機器への入力情報として提供する場合を示した。ここで、情報処理装置10は、NN11から出力されるテキストを、例えば、音声波形に変換することで、音声として再生してもよい。これにより、情報処理装置10は、音声として空中に音声を放射することで、NN11から出力されるテキストを、音声認識機能を有する周辺機器への入力情報として提供することができる。
(2)センサ装置の数
 上記実施形態では、センサ装置20を話者の体表の2箇所に付着させることで無音声発話認識処理を行う場合を示したが、この例に限られない。例えば、一以上の任意の数のセンサ装置20を話者の体表に付着させることで無音声発話認識処理を行ってもよい。
(3)センサデータの次元数
 上記実施形態では、センサ装置20が、3軸の加速度センサ及び3方向の回転を計測する角速度センサの計6自由度のセンサをセンサ装置20として話者の体表の2箇所に付着させることにより、計12次元のセンサデータを取得する場合を示した。上述した例は一例であり、センサ装置20が取得するセンサデータの次元数に制限はない。例えば、センサ装置20は、上述したようなセンサ装置20を話者の体表の3箇所に付着させる場合には、計18次元のセンサデータを取得してもよい。
(4)センサデータの次元数
 上記実施形態では、センサ装置20が、「100」に相当する固定時間のセンサデータを取得する場合を示したが、この例に限られない。すなわち、センサ装置20が取得するセンサデータの固定時間の長さに制限はない。センサ装置20は、対象となるテキストを読み上げるのに十分な長さであれば、どのような長さの固定時間のセンサデータを取得してもよい。
(5)NN11のネットワーク構成の層
 上記実施形態では、NN11が、3層の畳み込み層を有する場合を示したが、この例に限られない。すなわち、NN11が有する畳み込み層の数に制限はない。また、上記実施形態では、NN11が、2層の全結合層を有する場合を示したが、この例に限らない。すなわち、NN11が有する全結合層の数に制限はない。
 また、上記実施形態では、情報処理装置10が、畳み込み層と、全結合層と、ソフトマックスとを有するニューラルネットワークNN11を用いてテキストT1を出力する場合を示したが、この例に限られない。情報処理装置10は、例えば、ゲート付き回帰型ユニット(GRU:Gated Recurrent Unit)や、深層学習の分野において広く用いられる人工回帰型ユニット(LSTM:Long Short-term Memory)等の回帰型ユニットを活用してもよい。すなわち、情報処理装置10は、GRUやLSTM等の回帰型ユニットを有するニューラルネットワークNN11を用いてテキストT1を出力してもよい。
(6)NN11への入力に関する話者
 上記実施形態では、機械学習時に取得する無発声センサデータの話者と、NN11に入力する無発声センサデータの話者とが同一の話者である場合を示したが、必ずしも同一の話者でなくてもよい。例えば、情報処理装置10は、NN11を生成した際に取得した無発声センサデータの話者と異なる話者の無発声センサデータをNN11へ入力することにより、テキストを取得してもよい。
(7)機械学習のためのセンサデータ
 上記実施形態では、情報処理装置10が、無発声センサデータを学習情報として取得する場合を示した。ここで、情報処理装置10は、話者が発声して読み上げた際のセンサデータを学習情報として取得してもよい。この場合、情報処理装置10は、発声して読み上げた際のセンサデータと、テキストとを含む学習情報を用いた機械学習によりNN11を生成する。
(8)装置の一体
 上記実施形態では、情報処理装置10とセンサ装置20とは、別装置である場合を示したが、情報処理装置10とセンサ装置20とが一体であってもよい。例えば、情報処理装置10の機能は、センサ装置20の動作を制御するコンピュータに実装されていてもよい。また、情報処理装置10の機能は、センサ装置20の筐体内に設けられた任意のコンピュータに実装されていてもよい。同様に、情報処理装置10と音声制御装置30とが一体であってもよい。同様に、センサ装置20と音声制御装置30とが一体であってもよい。同様に、情報処理装置10とセンサ装置20と音声制御装置30とが一体であってもよい。
(9)畳み込み層の次元
 上記実施形態に係る畳み込み層の次元は、センサデータの次元数と固定時間とを別々の次元とすることにより、2D(Dimention)とされてもよい。この場合、畳み込み層は、2Dコンボリューションと称されてもよい。また、畳み込み層の次元は、センサデータの次元数と固定時間とを同一の次元とすることにより、1Dとされてもよい。この場合、畳み込み層は、1Dコンボリューションと称されてもよい。
(10)実施形態1に係る音声
 上記実施形態では、音響の一例として音声を用いて説明したが、音声でなくても、他の音響であってもよいものとする。上記実施形態において、情報処理装置10は、NN11から出力されるテキストを、例えば、音響波形に変換することで、音響として再生してもよい。そして、情報処理装置10は、音響として空中に音響を放射することで、NN11から出力されるテキストを、音響認識機能を有する周辺機器への入力情報として提供してもよい。
 <2.2.実施形態2:音素記号列によるサイレントスピーチ>
 <2.2.1.機能の概要>
 実施形態1では、情報処理装置10は、テキストと無発声センサデータとを学習情報としてニューラルネットワークを生成するため、ニューラルネットワークに入力される無発声センサデータが揺らぐ場合には、無音声発話認識処理を適切に行うことができない可能性がある。そこで、実施形態2では、情報処理装置10は、テキストを音素記号に変換した音素記号列を学習情報として取得する。なお、音素記号列は、音声を文字コードで表現したものである。音素記号列の一例としては、例えば、「play music」の音声を文字コードで表現した「/pl‘eImj’u:Ik/」である。音素記号列を用いることで、ニューラルネットワークにおいて、音素記号列を完全に再現できなくても、類似した音素記号列を再現し得る傾向がある。そして、類似した音素記号列を再現できれば、音素記号列に対応する音声が多少揺らいでも、人が適切に聞き取ることができる可能性や、音声認識機能を有する周辺機器が適切に情報を処理することができる可能性が向上し得る。以下、実施形態1と同様の説明は適宜省略する。
 図8は、実施形態2に係る情報処理システム1(実施形態2では、以下、「情報処理システム1Bと称する。」)の機能の概要を示す図である。情報処理システム1Bは、まず、テキストの音素記号列及びそのテキストを無発声で読み上げた際の無発声センサデータに基づく機械学習により、あらかじめNN1(実施形態2では、以下、「NN12」と称する。)を取得しておく。話者U12が音声を発さずに口腔内の状態を変化させた際に、センサ装置20は、無発声センサデータSD12を取得する。次いで、取得された無発声センサデータSD12は、NN12を介して音素記号列PS1に変換される。音素記号列PS1は、無発声センサデータがNN12に入力されるごとに出力される。
 NN12による変換処理後、変換された音素記号列PS1は、シンセサイザ(Synthesizer)VS1(ボイスシンセサイザ(スピーチシンセサイザ)等)に提供されることにより、音声VS11として再生される(S11)。また、変換された音素記号列PS1は、周辺機器への入力情報NI11として提供されてもよい(S12)。
 無発声センサデータSD12に示す「170」は、時間の単位数を示す。この「170」は、話者U12が音素記号列PS1に対応するテキストを読み上げるのに十分な時間として設定された固定時間である。なお、この「170」は、無発声センサデータSD11に示す「100」よりも大きい値であるが、これは、話者U12が「play music」と読み上げる方が、「play」と読み上げるよりも時間が掛かるためである。
 NN12は、畳み込み層C1乃至C3等を有する。NN12は、畳み込み層の後に、GRUを有する。例えば、NN12は、ゲート付き回帰型ユニットG1及びG2等を有する。これにより、NN12は、GRUを用いることで、入力される無発声センサデータの時系列をより適切に反映することができる。これにより、NN12は、GRUを用いることで、無発声センサデータの時系列をより適切に反映した音素記号列PS1を出力することができる。NN12は、ゲート付き回帰型ユニットの後に、ソフトマックスを用いる。そして、NN12は、ソフトマックスの後に、CTC(Connecionist Temporal Classification)を用いる。これにより、NN12は、CTCを用いることで、個々の音素記号と無発声センサデータとの時系列間の対応関係が未知である場合であっても、双方の時系列が一致するように補完することにより、時系列間での学習を可能にすることができる。
 音素記号列PS1は、例えば、シンセサイザVS1等の音声を再生する音声再生機器が認識可能な音素記号列であれば、どのようなものであってもよい。シンセサイザVS1等の音声再生機器は、認識した音素記号列を音声波形に変換することで、音声として再生する。そして、再生された音声は、例えば、音声認識機能を有する周辺機器への入力情報として用いられる。この場合、シンセサイザVS1等の音声再生機器は、認識した音素記号列を、音声認識機能を有する周辺機器への入力情報として提供する。
 音素記号列PS1は、音声として再生される場合以外にも、例えば、制御対象である周辺機器NI11が認識可能な音素記号列であれば、どのようなものであってもよい。周辺機器NI11は、認識した音素記号列に応じて駆動が制御される。
 <2.2.2.機能構成例>
 実施形態2に係る情報処理システム1Bの機能構成例は、実施形態1に係る情報処理システム1Aの機能構成例と同様である。
 (1-1)制御部110
 制御部110は、無発声センサデータを、機械学習により取得したアルゴリズムに基づき口腔内の状態に対応する情報に変換する。具体的には、制御部110は、口腔内の状態に対応する情報として、例えば、音声の内容を示す音素記号列に変換する。このアルゴリズムは、NN12を有し、制御部110は、NN12を介して、入力された無発声センサデータを音素記号列に変換する。例えば、制御部110は、通信部100から入力される無発声センサデータをNN12へ入力する。NN12は、入力された無発声センサデータから音素記号列を出力することで、無音声発話認識処理を行うことができる。
 ・機械学習部112
 機械学習部112は、機械学習により、無発声センサデータを音素記号列に変換するためのアルゴリズムを取得する。具体的には、機械学習部112は、無発声センサデータを音素記号列に変換するためのアルゴリズムNN12を取得する。
 NN12は、無発声センサデータと、音素記号列とを含む学習情報を用いた機械学習により得られる。例えば、NN12は、話者U12が無発声でテキストを読み上げた際の無発声センサデータと、話者U12により読み上げられたテキストの音素記号列とを学習情報として用いた機械学習により得られる。これにより、制御部110は、NN12を介して、無発声センサデータを音素記号列に変換することができる。
 ・処理制御部114
 処理制御部114は、記憶部120にアクセスしてNN12を用いた変換処理を行う。具体的には、処理制御部114は、通信部100から入力されるセンサ装置20が取得した無発声センサデータをNN12へ入力する。
 (1-2)記憶部120
 記憶部120は、制御部110における機械学習により生成されるアルゴリズムであるニューラルネットワークNN12を記憶する。制御部110は、無発声センサデータを音素記号列に変換する際に、記憶部120にアクセスしてNN12を利用する。
 (2)音声制御装置30
 (2-1)通信部300
 通信部300は、情報処理装置10から受信する音素記号列を制御部310へ出力する。
 (2-2)制御部310
 制御部310は、音声制御装置30の動作全般を制御する機能を有する。例えば、制御部310は、取得した音素記号列をシンセサイザ等の音声再生機器への入力情報として提供することにより、音素記号列を音声として再生する。これにより、制御部310は、例えば、音声認識機能を有する周辺機器の駆動を制御することができる。また、制御部310は、例えば、人のコミュニケーションに供することができる。また、制御部310は、取得した音素記号列を提供する他の例として、取得した音素記号列に応じて、制御対象である周辺機器の駆動を制御する。具体的には、制御部310は、取得した音素記号列を制御対象である周辺機器への入力情報として提供する。
 <2.2.3.情報処理システムの処理>
 以上、実施形態2に係る情報処理システム1Bの機能について説明した。続いて、情報処理システム1Bの処理について説明する。
 (1)ニューラルネットワークNN12を取得する機械学習の流れ
 図9は、実施形態2に係るニューラルネットワークNN12を生成する機械学習の流れを示すフローチャートである。まず、情報処理装置10は、話者に提示するテキストを音素記号列に変換した音素記号列を学習情報として取得する(S300)。また、情報処理装置10は、話者に提示されたテキストを無発声で話者が読み上げた際の無発声センサデータを学習情報として取得する(S302)。次いで、情報処理装置10は、所定の閾値以上の学習情報を取得したか否かを判定する(S304)。そして、情報処理装置10は、所定の閾値以上の学習情報を取得した場合(S304;YES)、取得した学習情報を用いて機械学習を行う(S306)。そして、情報処理装置10は、機械学習により生成されるニューラルネットワークNN12を記憶する(S308)。また、情報処理装置10は、所定の閾値以上の学習情報を取得していない場合(S304;NO)、ステップS300乃至S304の処理を繰り返す。なお、S300の処理とS302の処理との順序に関係性はなく、どちらの処理が先に行われてもよいし、同時に行われてもよい。また、S302の処理がS300の処理よりも先又は同時に行われる場合、S300において、情報処理装置10は、話者に提示されたテキストを音素記号列に変換した音素記号列を学習情報として取得する。
 <2.2.4.処理のバリエーション>
 以上、本開示の実施形態2について説明した。続いて、本開示の実施形態2の処理のバリエーションを説明する。なお、以下に説明する処理のバリエーションは、単独で本開示の実施形態2に適用されてもよいし、組み合わせで本開示の実施形態2に適用されてもよい。また、処理のバリエーションは、本開示の実施形態2で説明した構成に代えて適用されてもよいし、本開示の実施形態2で説明した構成に対して追加的に適用されてもよい。
(1)NN12のネットワーク構成のGRU
 上記実施形態では、情報処理装置10が、GRUを有するニューラルネットワークNN12を用いて音素記号列PS1を出力する場合を示したが、この例に限られない。例えば、情報処理装置10は、GRUの代わりに、双方向ゲート付き回帰型ユニット(BiGRU:Bidirectional Gated Recurrent Unit)を有するニューラルネットワークNN12を用いて音素記号列PS1を出力してもよい。また、情報処理装置10は、GRUやBiGRUに限らず、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)で用いられるものであれば、どのようなものを用いて音素記号列PS1を出力してもよい。
(2)NN12のネットワーク構成の層
 上記実施形態では、NN12が、3層の畳み込み層を有する場合を示したが、この例に限られない。すなわち、NN12が有する畳み込み層の数に制限はない。また、上記実施形態では、NN12が、2層のGRUを有する場合を示したが、この例に限らない。すなわち、NN12が有するGRUの数に制限はない。また、GRUに限らず、NN12が有するLSTMの数に制限はない。
(3)音素記号列への変換及び音声合成
 上記実施形態に係るテキストから音素記号列への変換、及び、音素記号列から音声波形への変換は、音声認識処理に基づく既存技術であれば、どのような既存技術を用いて実現されてもよい。例えば、上記実施形態に係るテキストから音素記号列への変換、及び、音素記号列から音声波形への変換は、Espeak等の音声認識ソフトウェアを用いて実現される。
(4)実施形態2に係る音声
 上記実施形態において、情報処理装置10は、NN12から出力される音素記号列を、例えば、音響波形に変換することで、音響として再生してもよい。そして、情報処理装置10は、音響として空中に音響を放射することで、NN12から出力される音素記号列を、音響認識機能を有する周辺機器への入力情報として提供してもよい。この場合、音素記号列PS1は、例えば、シンセサイザVS1等の音響を再生する音響再生機器が認識可能な音素記号列であれば、どのようなものであってもよい。制御部310は、取得した音素記号列をシンセサイザ等の音響再生機器への入力情報として提供することにより、音素記号列を音響として再生してもよい。
 <2.3.実施形態3:音声特徴量によるサイレントスピーチ>
 <2.3.1.機能の概要>
 実施形態1及び2では、ソフトマックスやCTCを用いることにより、入力情報と出力情報との対応付けに基づくニューラルネットワークを生成する場合を示した。しかしながら、実施形態1及び2では、生成されたニューラルネットワークを介して、音声特徴量は出力されないため、話者の音声を完全に再現できるとは限らない。そこで、実施形態3では、所定の時刻における音声特徴量を推定するように学習されたニューラルネットワークを生成することにより、音声特徴量そのものを出力する。また、実施形態3では、音声特徴量が出力されるため、シンセサイザ等の音声再生機器を用いて音声波形に変換することなく音声を再生することが可能となる。また、実施形態3では、音声特徴量を音声としては出力せず、制御対象である周辺機器への入力情報として出力することで、イヤフォンや骨伝導イヤフォン等を利用する利用者のみに対して、話者がどのような音声を発声しているのかを聞き取ることができるようにすることができる。以下、実施形態1及び2と同様の説明は適宜省略する。
 音声特徴量は、例えば、音声認識装置により認識可能な情報である。音声特徴量は、例えば、周波数、振幅、及び時間により、音声の高低、強度等の音声の特徴の時系列変化を3次元的に示すスペクトログラムである。なお、音声特徴量は、音声の特徴量を示すベクトルであってもよい。
 図10は、実施形態3に係る情報処理システム1(実施形態3では、以下、「情報処理システム1Cと称する。」)の機能の概要を示す図である。情報処理システム1Cは、まず、所定の時刻における無発声センサデータの値(以下、「センサ値」と称する。)を入力情報として、所定の時刻における音声特徴量を推定するように学習されたニューラルネットワークNN1(実施形態3では、以下、「NN13」と称する。)を生成しておく。話者U12が音声を発さずに口腔内の状態を変化させた際に、センサ装置20は、無発声センサデータのセンサ値SD13を取得する。次いで、取得された無発声センサデータのセンサ値SD13のうち、所定の時刻における無発声センサデータのセンサ値SD23が、NN13に入力される。具体的には、取得された無発声センサデータのセンサ値SD13のうち、所定の時刻の前後の所定の期間に対応する無発声センサデータのセンサ値SD23が、NN13に入力される。入力された無発声センサデータのセンサ値SD23は、NN13を介して音声特徴量SV23に変換される。全ての時刻において、無発声センサデータのセンサ値SD23を個別にNN13に入力することによって、音声特徴量SV13が出力される。具体的には、個別に変換された音声特徴量SV23を時系列に結合することにより、音声特徴量SV13が出力される。
 NN13による変換処理後、個別に変換された音声特徴量が結合された音声特徴量SV13は、音声VS12として再生される(S21)。そして、再生された音声VS12は、音声認識機能を有する周辺機器NI12への入力情報として用いられる(S22)。また、音声特徴量SV13は、周辺機器NI12への入力情報として直接提供されてもよい(S23)。
 所定の時刻(t)における無発声センサデータのセンサ値(Xt)は、下記式(1)により算出される。
Figure JPOXMLDOC01-appb-M000001
 (dは、無発声センサデータの次元数を表す。図10では、無発声センサデータの次元数は12であるため、dは12となる。dは、表記されてもされなくてもよい。tは、所定の時刻を表す。)
 所定の時刻(t)における音声特徴量(Yt)は、下記式(2)により算出される。
Figure JPOXMLDOC01-appb-M000002
 (G(Xt)は、音声特徴量(Yt)を推定するNN13を表す。Xtは、時刻(t-l)から時刻(t+k)までの期間におけるセンサ値の系列を表す。なお、時刻(t-l)から時刻(t+k)までの期間は、次元数で言えば、(d、l+k)で表記され得る。)
 無発声センサデータSD13に示す「12」は、無発声センサデータSD13を取得したセンサの次元数を示し、「32」は、無発声センサデータSD13のサンプル数を示す。この32個のサンプル数を有する無発声センサデータSD13に対して、所定の時刻(t)の音声特徴量を出力する際には、時刻(t-l)から時刻(t+k)までの期間におけるセンサ値が、無発声センサデータSD13から抽出されることにより、NN13に入力される。また、無発声センサデータを取得するサンプリングレートが例えば50Hzである場合、所定の時刻の前後0.64秒のセンサ値の系列の各々が、NN13に入力される。そして、「32」の数のセンサ値の系列の各々をNN13に入力することにより出力される音声特徴量SV23を結合することにより、一つの音声特徴量SV13が出力される。
 NN13は、畳み込み層C1乃至C3等を有する。NN13は、畳み込み層の後に、ゲート付き回帰型ユニット(GRU)G1及びG2等を有する。これにより、NN13は、GRUを用いることで、センサ値の系列をより適切に反映することができる。これにより、NN13は、GRUを用いることで、センサ値の系列をより適切に反映した音声特徴量を出力することができる。
 <2.3.2.機能構成例>
 実施形態3に係る情報処理システム1Cの機能構成例は、実施形態1に係る情報処理システム1Aの機能構成例と同様である。
 (1-1)制御部110
 制御部110は、所定の時刻における無発声センサデータのセンサ値を、機械学習により取得したアルゴリズムに基づき口腔内の状態に対応する情報に変換する。具体的には、制御部110は、口腔内の状態に対応する情報として、例えば、音声特徴量に変換する。このアルゴリズムは、NN13を有し、制御部110は、NN13を介して、無発声センサデータのセンサ値を音声特徴量に変換する。例えば、制御部110は、通信部100から入力される無発声センサデータのセンサ値をNN13へ入力する。NN13は、入力された無発声センサデータのセンサ値から音声特徴量を出力することで、無音声発話認識処理を行うことができる。
 ・機械学習部112
 機械学習部112は、機械学習により、所定の時刻における無発声センサデータのセンサ値を音声特徴量に変換するためのアルゴリズムを取得する。具体的には、機械学習部112は、無発声センサデータのセンサ値を音声特徴量に変換するためのアルゴリズムNN13を取得する。
 NN13は、所定の時刻における無発声センサデータのセンサ値と、対応する所定の時刻における音声特徴量とを含む学習情報を用いた機械学習により得られる。例えば、NN13は、話者U12が無発声でテキストを読み上げた際の無発声センサデータのセンサ値と、対応する音声特徴量とを学習情報として用いた機械学習により得られる。これにより、制御部110は、NN13を介して、無発声センサデータのセンサ値を音声特徴量に変換することができる。
 ・処理制御部114
 処理制御部114は、記憶部120にアクセスしてNN13を用いた変換処理を行う。具体的には、処理制御部114は、通信部100から入力されるセンサ装置20が取得した無発声センサデータのセンサ値をNN13へ入力する。
 (1-2)記憶部120
 記憶部120は、制御部110における機械学習により生成されるアルゴリズムであるニューラルネットワークNN13を記憶する。制御部110は、無発声センサデータのセンサ値を音声特徴量に変換する際に、記憶部120にアクセスしてNN13を利用する。
 (2)音声制御装置30
 (2-1)通信部300
 通信部300は、情報処理装置10から受信する音声特徴量を制御部310へ出力する。
 (2-2)制御部310
 制御部310は、音声制御装置30の動作全般を制御する機能を有する。例えば、制御部310は、取得した音声特徴量を音声として再生する。また、制御部310は、取得した音声特徴量を提供する他の例として、取得した音声特徴量に応じて、制御対象である周辺機器の駆動を制御する。具体的には、制御部310は、取得した音声特徴量を、音声としては再生せず、制御対象である周辺機器への入力情報として提供する。これにより、制御部310は、音声特徴量を音声としては提供せず、入力情報として提供することで、イヤフォンや骨伝導イヤフォン等を利用する利用者のみに対して、話者がどのような音声を発声しているのかを聞き取ることができるようにすることができる。
 <2.3.3.情報処理システムの処理>
 以上、実施形態3に係る情報処理システム1Cの機能について説明した。続いて、情報処理システム1Cの処理について説明する。
 (1)ニューラルネットワークNN13を取得する機械学習の流れ
 図11は、実施形態3に係るニューラルネットワークNN13を生成する機械学習の流れを示すフローチャートである。まず、情報処理装置10は、話者に提示されたテキストを無発声で話者が読み上げた際の無発声センサデータのセンサ値を学習情報として取得する(S400)。また、情報処理装置10は、話者に提示されたテキストを無発声で話者が読み上げた際の音声特徴量を学習情報として取得する(S402)。次いで、情報処理装置10は、所定の閾値以上の学習情報を取得したか否かを判定する(S404)。そして、情報処理装置10は、所定の閾値以上の学習情報を取得した場合(S404;YES)、取得した学習情報を用いて機械学習を行う(S406)。そして、情報処理装置10は、機械学習により生成されるニューラルネットワークNN13を記憶する(S408)。また、情報処理装置10は、所定の閾値以上の学習情報を取得していない場合(S404;NO)、ステップS400乃至S404の処理を繰り返す。なお、S400の処理とS402の処理との順序に関係性はなく、どちらの処理が先に行われてもよいし、同時に行われてもよい。
 <2.3.4.処理のバリエーション>
 以上、本開示の実施形態3について説明した。続いて、本開示の実施形態3の処理のバリエーションを説明する。なお、以下に説明する処理のバリエーションは、単独で本開示の実施形態3に適用されてもよいし、組み合わせで本開示の実施形態3に適用されてもよい。また、処理のバリエーションは、本開示の実施形態3で説明した構成に代えて適用されてもよいし、本開示の実施形態3で説明した構成に対して追加的に適用されてもよい。
(1)NN13のネットワーク構成のGRU
 上記実施形態では、情報処理装置10が、GRUを有するニューラルネットワークNN13を用いて音声特徴量SV23を出力する場合を示したが、この例に限られない。例えば、情報処理装置10は、GRUの代わりに、BiGRUを有するニューラルネットワークNN13を用いて音声特徴量SV23を出力してもよい。また、情報処理装置10は、GRUやBiGRUやLSTM等のRNNに限らず、どのようなものを用いて音声特徴量SV23を出力してもよい。情報処理装置10は、例えば、NN11で用いた全結合層等を用いて音声特徴量SV23を出力してもよい。
(2)NN13のネットワーク構成の層
 上記実施形態では、NN13が、3層の畳み込み層を有する場合を示したが、この例に限られない。すなわち、NN13が有する畳み込み層の数に制限はない。また、上記実施形態では、NN13が、2層のGRUを有する場合を示したが、この例に限らない。すなわち、NN13が有するGRUの数に制限はない。また、GRUに限らず、NN13が有するLSTMの数に制限はない。
 また、上記実施形態では、情報処理装置10が、時刻(t-l)から時刻(t+k)までの期間におけるセンサ値を、NN13に入力する場合を示したが、この例に限らない。例えば、情報処理装置10は、時刻(t)の前後の時刻を含む期間におけるセンサ値を入力する場合に限らず、時刻(t)の前の時刻のみを含む期間におけるセンサ値を、NN13に入力することにより、音声特徴量SV23を出力してもよい。
(3)実施形態3に係る音声
 上記実施形態において、情報処理装置10は、所定の時刻における無発声センサデータのセンサ値を入力情報として、所定の時刻における音響特徴量を推定するように学習されたNN13を用いて、音響特徴量を出力してもよい。この場合、音響特徴量は、例えば、音響認識装置により認識可能な情報である。音響特徴量は、例えば、周波数、振幅、及び時間により、音響の高低、強度等の音響の特徴の時系列変化を3次元的に示すスペクトログラムである。なお、音響特徴量は、音響の特徴量を示すベクトルであってもよい。制御部310は、取得した音響特徴量を音響として再生してもよい。
 <2.4.実施形態4:視線認識を併用するサイレントスピーチ>
 <2.4.1.概要>
 実施形態1乃至3では、無発声センサデータを取得することにより、無音声発話認識処理を行う場合を示した。しかしながら、話者が実際に声を発する場合と比較して、無音声発話認識の認識精度が低くなり得る可能性もある。また、声帯の振動ではなく皮膚運動を計測する場合には、例えば、不用意な口周りの動き等を発話と解釈されてしまう可能性も生じ得る。そこで、実施形態4では、視線認識を併用する無音声発話認識処理を提案する。具体的には、実施形態4では、話者が視線を向けている注視対象(オブジェクト)のみに対して、無音声発話認識処理を行う。視線認識を併用することにより、無音声発話認識の認識精度を向上することができる。また、視線インタフェースでは、視線を向けている注視対象の全てを、無作為にトリガーしてしまう視線のミダスタッチ問題等が生じ得る可能性がある。視線認識と無音声発話認識とを組み合わせることで、視線のミダスタッチ問題等を解決することもできる。
 <2.4.2.情報処理システムの構成>
 まず、実施形態に係る情報処理システム1(実施形態4では、以下、「情報処理システム1Dと称する。)の構成について説明する。情報処理システム1Dの構成は、情報処理システム1A乃至Cと異なる。図12は、情報処理システム1Dの構成例を示す図である。図12に示したように、情報処理システム1Dは、情報処理装置10、センサ装置20、音声制御装置30、及び視線検出装置40を備える。情報処理装置10には、多様な装置が接続され得る。例えば、情報処理装置10には、センサ装置20、音声制御装置30及び視線検出装置40が接続され、各装置間で情報の連携が行われる。情報処理装置10には、センサ装置20、音声制御装置30及び視線検出装置40が無線で接続される。例えば、情報処理装置10は、センサ装置20、音声制御装置30及び視線検出装置40とBluetooth(登録商標)を用いた近距離無線通信を行う。なお、情報処理装置10には、センサ装置20、音声制御装置30及び視線検出装置40が有線で接続されてもよいし、ネットワークを介して接続されてもよい。以下、実施形態1乃至3と同様の説明は適宜省略する。
 (1)情報処理装置10
 情報処理装置10は、話者の視線の認識処理を行う。例えば、情報処理装置10は、話者の視線を計測して、話者が注視している画面(スクリーン)上の注視対象を認識する。注視対象は、例えば、撮像情報や文字情報である。情報処理装置10は、視線検出装置40から受信する情報に基づき、情報処理装置10における視線認識に関する処理を行う。
 情報処理装置10は、センサ装置20、音声制御装置30及び視線検出装置40から受信する情報に基づき、情報処理装置10における無音声発話認識に関する処理を制御する。また、情報処理装置10は、視線検出装置40等の動作を制御してもよい。
 (2)視線検出装置40
 視線検出装置40は、話者の視線を検出する視線検出装置である。例えば、視線検出装置40は、アイトラッカ等のアイトラッキングの技術を用いる視線検出装置である。視線検出装置40は、話者が視線を向けている視線データを取得する。視線検出装置40は、視線インタフェースで広く使われている視線の検出技術を利用して視線データを取得する。そして、視線検出装置40は、取得した視線データを情報処理装置10へ送信する。
 視線検出装置40は、話者の視線を検出するための装置であれば、どのような装置として実現されてもよい。例えば、視線検出装置40は、話者に装着されるウェアラブル型の装置として実現されてもよいし、リモート型の装置として実現されてもよい。
 以上、情報処理システム1Dの構成について説明した。続いて、情報処理システム1Dの機能について説明する。
 <2.4.3.機能の概要>
 図13は、情報処理システム1Dの機能の概要を示す図である。図13では、注視対象TI11の一例として、音楽アルバムのジャケットが表示される。話者が画面SU11上の注視対象TI11に視線を向けると、情報処理装置10は、まず、視線検出装置40を介して、注視対象TI11を認識する。具体的には、情報処理装置10は、画面SU11上で話者が視線を向けている対象を示す情報である視線対象情報TV11が表示されるように制御する。これにより、情報処理装置10は、話者が視線を向けている対象を視認可能な状態にできるため、話者のユーザビリティの向上を促進することができる。図13Aでは、注視対象TI11上に視線対象情報TV11が表示されるため、情報処理装置10は、視線対象情報TV11が示す注視対象TI11を認識する(S31)。次いで、情報処理装置10は、認識された注視対象TI11に関連する情報群SC11が画面SU11上に表示されるように制御する(S32)。そして、情報処理装置10は、無発声による話者の発話を促す情報SP11が表示されるように制御する。図13Cでは、情報SP11として、「Say(silently)“play”」が表示される。
 情報群SC11は、話者が視線を向けている対象を操作するための操作情報である。図13Bでは、話者が注視対象TI11に視線を向けることにより、注視対象TI11に関連する情報群SC11の一例として、「play」、「stop」、「next」、「back」が表示される。表示された「play」は、音楽の再生を示す。また、表示された「stop」は、音楽の停止を示す。また、表示された「next」は、次に再生される音楽の再生を示す。また、表示された「back」は、直前に再生された音楽の再生を示す。話者が情報群SC11に含まれる情報を無発声で発話すると、話者が無発声で発話した情報に対応する操作が行われる。例えば、話者が「play」と無発声で発話することにより、音楽の再生が行われる。これにより、情報処理装置10は、画面SU11上に複数の音楽アルバムのジャケットが表示される場合であっても、視線認識を併用することにより、話者が意図したジャケットに対する操作を行うことができる。
 <2.4.4.機能構成例>
 図14は、実施形態4に係る情報処理システム1Dの機能構成例を示すブロック図である。
 (1)情報処理装置10
 (1-1)通信部100
 通信部100は、例えば、視線検出装置40から受信する視線データを制御部110へ出力する。
 通信部100は、例えば、制御部110から入力される視線データの取得に関する情報を視線検出装置40へ送信する。
 (1-2)制御部110
 ・処理制御部114
 処理制御部114は、視線認識処理を行う機能を有する。例えば、処理制御部114は、通信部100から入力される視線データに基づいて、話者が注視している画面上の注視対象を認識する。
 処理制御部114は、視線認識処理の結果に基づき、実行する処理を決定する。例えば、処理制御部114は、視線認識処理の結果に基づき、話者が注視している画面上の注視対象に関連する複数の情報を有する情報群を抽出する。そして、処理制御部114は、抽出された情報群を、通信部100を介して、注視対象を表示する外部装置等へ提供する。この外部装置等は、処理制御部114から提供された情報群を、画面上に表示する。そして、処理制御部114は、抽出された情報群に対する無音声発話認識処理の結果に基づき、無音声発話認識処理の結果を、通信部100を介して、音声制御装置30へ提供する。
 処理制御部114は、視線認識処理の結果に基づき、実行する処理をどのように決定してもよい。例えば、処理制御部114は、画面上の注視対象に対する話者の注視時間が所定の閾値以上であるか否かに基づいて、注視時間が所定の閾値以上である場合、実行する処理を決定してもよい。他の例として、処理制御部114は、話者が画面上の注視対象を注視中に、通信部100を介して、話者の無発声センサデータを取得した場合、実行する処理を決定してもよい。
 (2)視線検出装置40
 図14に示したように、視線検出装置40は、通信部400、制御部410、及び視線データ取得部420を有する。
 (2-1)通信部400
 通信部400は、外部装置と通信を行う機能を有する。例えば、通信部400は、外部装置との通信において、外部装置から受信する情報を制御部410へ出力する。具体的に、通信部400は、情報処理装置10から受信する視線データの取得に関する情報を制御部410へ出力する。
 また、通信部400は、外部装置との通信において、制御部410から入力される情報を外部装置へ送信する。具体的に、通信部400は、制御部410から入力される視線データを情報処理装置10へ送信する。
 (2-2)制御部410
 制御部410は、視線検出装置40の動作全般を制御する機能を有する。例えば、制御部410は、視線データ取得部420による視線データの取得処理を制御する。また、制御部410は、視線データ取得部420により取得された視線データを、通信部400が情報処理装置10へ送信する処理を制御する。
 (2-3)視線データ取得部420
 視線データ取得部420は、視線データを取得する機能を有する。例えば、視線データ取得部420は、視線検出装置40に備えられた視線検出器を用いて視線データを取得する。
 <2.4.5.情報処理システムの処理>
 以上、実施形態に係る情報処理システム1Dの機能について説明した。続いて、情報処理システム1Dの処理について説明する。
 (1)情報処理装置10における処理
 図15は、実施形態4に係る情報処理装置10における処理の流れを示すフローチャートである。まず、情報処理装置10は、視線データを取得する(S600)。また、情報処理装置10は、取得した視線データに基づいて、話者が注視している注視対象を認識する(S602)。次いで、情報処理装置10は、認識した注視対象に関連する情報群を抽出する(S604)。次いで、情報処理装置10は、抽出した情報群が表示されるように制御情報を提供する(S606)。そして、情報処理装置10は、無発声センサデータを取得したか否かを判定する(S608)。そして、情報処理装置10は、無発声センサデータを取得しない場合(S608;NO)、情報処理を終了する。また、情報処理装置10は、無発声センサデータを取得した場合(S608;YES)、取得した無発声センサデータをニューラルネットワークNN1(NN11乃至13)へ入力し、出力される音声データに基づいて、話者の発話を推定する(S610)。そして、情報処理装置10は、推定した話者の発話に関連する情報が、抽出された情報群に含まれるか否かを判定する(S612)。そして、情報処理装置10は、推定した話者の発話に関連する情報が、抽出された情報群に含まれる場合(S612;YES)、推定した話者の発話に関連する情報に対応する処理を実行する(S614)。また、情報処理装置10は、推定した話者の発話に関連する情報が、抽出された情報群に含まれない場合(S612;NO)、エラー等の処理が実行できない旨の情報が表示されるように制御情報を提供する(S616)。
 <2.4.6.処理のバリエーション>
 以上、本開示の実施形態4について説明した。続いて、本開示の実施形態4の処理のバリエーションを説明する。なお、以下に説明する処理のバリエーションは、単独で本開示の実施形態4に適用されてもよいし、組み合わせで本開示の実施形態4に適用されてもよい。また、処理のバリエーションは、本開示の実施形態4で説明した構成に代えて適用されてもよいし、本開示の実施形態4で説明した構成に対して追加的に適用されてもよい。
(1)視線認識における注視対象
 上記実施形態では、処理制御部114が、画面上の注視対象を認識する場合を示したが、画面上の注視対象に限らず、どのような表示対象上に表示される注視対象を認識してもよい。例えば、処理制御部114は、プロジェクタを介して壁や床等の表示対象上に投影される注視対象を認識してもよい。
(2)注視対象に関連する情報群
 上記実施形態では、処理制御部114が、話者が注視している注視対象に関連する複数の情報を有する情報群を抽出する場合を示したが、情報群に限らず、単数の情報を情報群として抽出してもよい。この場合、処理制御部114は、無発声センサデータから推定される話者の発話に関連する情報が、抽出された情報であるか否かを判定する。
 また、上記実施形態では、情報群SC11が注視対象TI11に隣接して表示される場合を示したが、画面SU11上で情報群SC11が表示される位置に制限はない。例えば、処理制御部114は、画面SU11上で注視対象TI11が表示される領域内に情報群SC11が表示されるように制御してもよい。また、上記実施形態では、情報群SC11が画面SU11上に表示される場合を示したが、処理制御部114は、外部の表示装置の画面上に表示されるように制御してもよい。また、処理制御部114は、情報群SC11が表示されるように制御しなくてもよい。
(3)無音声発話認識処理の結果の提供
 上記実施形態では、処理制御部114が、視線認識処理の結果に基づき、話者の注視対象に関連する情報群を抽出して、抽出された情報群に対する無音声発話認識処理の結果に基づき、無音声発話認識処理の結果を、音声制御装置30へ提供する場合を示した。ここで、処理制御部114は、話者の注視対象に関連する情報群を抽出することなく、無音声発話認識処理の結果を、音声制御装置30へ提供してもよい。この場合、処理制御部114は、視線認識処理の結果に基づき、無音声発話認識処理の結果を、通信部100を介して、音声制御装置30へ提供するか否かを決定する。なお、処理制御部114は、視線認識処理の結果に基づき、無音声発話認識処理の結果を、通信部100を介して、音声制御装置30へ提供するか否かをどのように決定してもよい。例えば、処理制御部114は、話者が発話した際に、話者の発話に関連する注視対象を話者が注視している場合、無音声発話認識処理の結果を、通信部100を介して、音声制御装置30へ提供すると決定する。
 また、話者の注視対象に関連する情報群を抽出することなく、無音声発話認識処理の結果を、音声制御装置30へ提供してもよいことから、以下の処理が導出される。処理制御部114は、例えば、話者の注視対象に対する話者の注視時間が所定の閾値以上である場合、無発声センサデータを音声データに変換する処理を行ってもよい。他の例として、処理制御部114は、例えば、話者が注視対象を注視中に注視対象に関する発話を話者が行った場合、無発声センサデータを音声データに変換する処理を行ってもよい。
(4)装置の一体
 上記実施形態では、情報処理装置10と視線検出装置40とは、別装置である場合を示したが、情報処理装置10と視線検出装置40とが一体であってもよい。同様に、センサ装置20と視線検出装置40とが一体であってもよい。同様に、音声制御装置30と視線検出装置40とが一体であってもよい。同様に、情報処理装置10とセンサ装置20と音声制御装置30と視線検出装置40とが一体であってもよい。
(5)無発声による話者の発話を促す表記の限定
 上記実施形態では、情報群SC11のうち「play」の無発声による話者の発話を促すために、「“play”」の表記を用いて、「Say(silently)“play”」と表示する場合を示したが、この例に限られない。例えば、処理制御部114は、「“play”」の文字情報を四角や円等の図形を用いて囲んだ表記が表示されるように制御してもよい。他の例として、処理制御部114は、「“play”」の文字情報の色を変えることにより、「“play”」の文字情報がハイライトされた表記が表示されるように制御してもよい。
 また、上記実施形態では、情報SP11が画面SU11上の下部に表示される場合を示したが、画面SU11上で情報SP11が表示される位置に制限はない。例えば、処理制御部114は、画面SU11上で注視対象TI11が表示される領域内に情報SP11が表示されるように制御してもよい。また、上記実施形態では、情報SP11が画面SU11上に表示される場合を示したが、処理制御部114は、外部の表示装置の画面上に表示されるように制御してもよい。また、処理制御部114は、情報SP11が表示されるように制御しなくてもよい。
<<3.応用例>>
 以上、本開示の実施形態(実施形態1乃至4)について説明した。続いて、本開示の実施形態に係る情報処理システム1(情報処理システム1A乃至1D)の応用例を説明する。
 <3.1.第1の応用例>
 まず、実施形態に係る第1の応用例について説明する。実施形態に係る情報処理システム1は、声帯が欠損している人や聴覚障害者の発声支援機器として応用され得る。近年、声帯の機能を失った人のために、咽頭にボタン制御可能な振動子を押し当てて声帯の代替とする技術(例えば、ユアトーン(登録商標))が提案されている。この技術により、声帯の機能を失った人は、声帯を振動させることなく音声を発声することができる。しかしながら、この技術では、振動子が大きな音を発するため、口腔内を経由した発話の音声を阻害してしまうことが起こり得る。また、話者がこの大きな音の音量を調整することは難しく、このような大きな音は、話者にとっては不快な音となり得る。一方、実施形態に係る情報処理システム1では、センサ装置20により取得される情報が音声特徴量に変換され、この音声特徴量が音声波形として発声されるため、咽頭振動子による雑音等の発話の音声を阻害する音や、不快な音は生じない。また、話者は、情報処理システム1から生じる音声の音量を自由に調整することもできる。よって、声帯の機能を失った人であっても、実施形態に係る情報処理システム1をより快適に利用することができる。
 また、センサ装置20を皮膚内に埋め込むことで、常時装着することが可能となり得る。センサ装置20を皮膚内に埋め込むことによって、センサ装置20が埋め込まれた皮膚の部分とセンサ装置20との位置関係を常に同一とすることができるので、音声を推定する精度を向上することが可能となり得る。また、電磁授受のコイルを有するセンサ装置20を皮膚内に埋め込むことによって、皮膚外のコイルから電力も供給され得る。
 <3.2.第2の応用例>
 実施形態に係る第2の応用例について説明する。実施形態に係る情報処理システム1は、秘匿発話(サイレントスピーチ(サイレントボイス))に応用され得る。一般に、サイレントスピーチは発話の秘匿性を担保すると考えられているが、画像に基づく読唇の技術が進歩すれば、発話中の口の動きを撮像することによって、発話内容が推定され得る可能性がある。画像に基づく秘匿性発話の認識手法を用いる場合には、口元を隠すことができないので、セキュリティのリスクとなり得る。一方、実施形態に係る情報処理システム1では、口元を撮像する必要がないため、例えば、話者が口元を手で覆うだけで、発話を読唇から隠すことが可能となり得る。すなわち、実施形態に係る情報処理システム1では、例えば、話者が口元を手で覆うだけで、画像に基づく読唇のリスクを回避することが可能となり得る。
 <3.3.他の応用例>
 実施形態に係る他の応用例について説明する。実施形態に係る情報処理システム1は、視線認識を併用することにより、目と口は使えるが手が使いにくい状況下で広く応用し得る。例えば、情報処理システム1は、身体が自由にならないが、視線と無発声発話が可能な人の機器操作手段として応用し得る。他の例として、情報処理システム1は、料理や運転中の場合等、手を他の操作のために用いている場合の機器操作手段として応用し得る。他の例として、情報処理システム1は、話者がHMD(Head Mounted Display)を装着し、話者がHMDの画像の中で特定の場所に視線を向けながら無発声発話する場合の機器操作手段として応用し得る。
 また、実施形態に係る他の応用例として、センサ装置20が備えられ得るヘッドホンの種々の型について説明する。図2Bでは、センサ装置20が、オーバーヘッド型のヘッドホンに備えられることにより、上記実施形態が実現され得る場合を示した。ここで、センサ装置20が、種々の型のヘッドホンに備えられることにより、上記実施形態が実現され得る場合を説明する。図16Aでは、センサ装置20が、インナーイヤ型又は完全ワイヤレス型のヘッドホンに備えられる場合を示す。図16Aに示すセンサ装置20は、インナーイヤ型又は完全ワイヤレス型のヘッドホンとしての構造上、ヘッドホンKS13のうち、話者U12の耳下(図3に示すセンサ位置SL5)に接する部分の内部に備えられている。また、図16Bは、オープンイヤ型のヘッドホンに備えられる場合を示す。図16Bに示すセンサ装置20は、オープンイヤ型のヘッドホンとしての構造上、ヘッドホンKS14のうち、話者U12の耳下(図3に示すセンサ位置SL5)に接する部分の内部に備えられている。なお、図16A及びBに示す例も一例であり、センサ装置20がどのような型のヘッドホンに備えられることにより、上記実施形態が実現されてもよい。勿論、ヘッドホンに限らず、センサ装置20が、どのようなものの一部として機能することにより、上記実施形態が実現されてもよい。
<<4.ハードウェア構成例>>
 最後に、図17を参照しながら、実施形態に係る情報処理装置のハードウェア構成例について説明する。図17は、実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。なお、図17に示す情報処理装置900は、例えば、図5及び14にそれぞれ示した情報処理装置10、センサ装置20、及び音声制御装置30を実現し得る。実施形態に係る情報処理装置10、センサ装置20、及び音声制御装置30による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図16に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、及びRAM(Random Access Memory)903を備える。また、情報処理装置900は、ホストバス904a、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート910、及び通信装置911を備える。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ハードウェア構成は、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 CPU901は、例えば、演算処理装置又は制御装置として機能し、ROM902、RAM903、又はストレージ装置908に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM902は、CPU901に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM903には、例えば、CPU901に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。CPU901、ROM902およびRAM903は、例えば、ソフトウェアとの協働により、図5を参照して説明した制御部110、制御部210、及び制御部310の機能を実現し得る。
 CPU901、ROM902、及びRAM903は、例えば、高速なデータ伝送が可能なホストバス904aを介して相互に接続される。一方、ホストバス904aは、例えば、ブリッジ904を介して比較的データ伝送速度が低速な外部バス904bに接続される。また、外部バス904bは、インタフェース905を介して種々の構成要素と接続される。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、話者によって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いて話者により入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900の話者は、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
 他にも、入力装置906は、話者に関する情報を検知する装置により形成され得る。例えば、入力装置906は、画像センサ(例えば、カメラ)、深度センサ(例えば、ステレオカメラ)、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ(例えば、ToF(Time of Flight)センサ)、力センサ等の各種のセンサを含み得る。また、入力装置906は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得してもよい。また、入力装置906は、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して装置の緯度、経度及び高度を含む位置情報を測定するGNSSモジュールを含んでもよい。また、位置情報に関しては、入力装置906は、Wi-Fi(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置906は、例えば、図5を参照して説明したセンサデータ取得部220の機能を実現し得る。
 出力装置907は、取得した情報を話者に対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図5を参照して説明した制御部310の機能を実現し得る。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図5を参照して説明した記憶部120の機能を実現し得る。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート910は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器を接続するためのポートである。
 通信装置911は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置911は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置911は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置911は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置911は、例えば、図5を参照して説明した通信部100、通信部200、及び通信部300の機能を実現し得る。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
<<5.まとめ>>
 以上説明したように、実施形態に係る情報処理装置10は、発話の際の皮膚運動を計測することにより取得される無発声センサデータを、機械学習により取得したアルゴリズムに基づき口腔内の状態に対応する情報に変換する。これにより、情報処理装置10は、ユーザが声を発さずに、意図して舌などの口腔内の対象又は顎を動かした際の皮膚運動を示す無発声センサデータを音声データに変換することができる。
 よって、ユーザが発声せずに意図した音声データを得ることが可能な、新規かつ改良された情報処理装置及び情報処理方法を提供することが可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図5に示した情報処理装置10、センサ装置20及び音声制御装置30は、それぞれ単独の装置として実現されてもよい。また、例えば、情報処理装置10、センサ装置20及び音声制御装置30とネットワーク等で接続されたサーバ装置として実現されてもよい。また、情報処理装置10が有する制御部110の機能をネットワーク等で接続されたサーバ装置が有する構成であってもよい。
 また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体(非一時的な媒体:non-transitory media)に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。
 また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 発話の際の皮膚運動を計測することにより取得されるセンサデータを当該発話の内容に対応する情報に変換する制御部、
 を備える、情報処理装置。
(2)
 前記制御部は、前記センサデータを前記発話の内容に対応する音声データに変換する、
 前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記センサデータを入力とするニューラルネットワークを用いて、前記センサデータを前記発話の内容に対応する情報に変換する、
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記ニューラルネットワークは、テキストと、当該テキストを無発声で読み上げた際の前記センサデータとを含む学習情報を用いた機械学習により得られる、
 前記(3)に記載の情報処理装置。
(5)
 前記ニューラルネットワークは、テキストを音素記号に変換した音素記号列と、当該テキストを無発声で読み上げた際の前記センサデータとを含む学習情報を用いた機械学習により得られる、
 前記(3)に記載の情報処理装置。
(6)
 前記ニューラルネットワークは、入力された無発声時の前記センサデータから単位時間当たりの音声特徴量を複数生成し、生成した複数の当該音声特徴量を時系列順に合成することで前記発話の内容に対応する情報を生成する、
 前記(3)に記載の情報処理装置。
(7)
 前記音声特徴量は、スペクトログラムである、
 前記(6)に記載の情報処理装置。
(8)
 前記制御部は、話者の視線を検出することにより取得される視線データに基づいて、当該話者が注視対象を注視中に当該注視対象に関する前記発話を行った場合、前記センサデータを前記発話の内容に対応する情報に変換する、
 前記(1)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記センサデータは、話者が発声せずに顎又は口腔内の対象の少なくともいずれか一方を動かした際の前記皮膚運動を示す、
 前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記機械学習は、ディープラーニングにより行われる、
 前記(4)又は(5)に記載の情報処理装置。
(11)
 前記機械学習は、コンボリューショナルニューラルネットワークを用いて行われる、
 前記(10)に記載の情報処理装置。
(12)
 発話の際の皮膚運動を計測することにより取得されるセンサデータを当該発話の内容に対応する情報に変換すること、
 を含む、プロセッサにより実行される情報処理方法。
 1 情報処理システム
 10 情報処理装置
 20 センサ装置
 30 音声制御装置
 40 視線検出装置
 100 通信部
 110 制御部
 112 機械学習部
 114 処理制御部
 120 記憶部
 200 通信部
 210 制御部
 220 センサデータ取得部
 300 通信部
 310 制御部
 400 通信部
 410 制御部
 420 視線データ取得部

Claims (12)

  1.  発話の際の皮膚運動を計測することにより取得されるセンサデータを当該発話の内容に対応する情報に変換する制御部、
     を備える、情報処理装置。
  2.  前記制御部は、前記センサデータを前記発話の内容に対応する音声データに変換する、
     請求項1に記載の情報処理装置。
  3.  前記制御部は、前記センサデータを入力とするニューラルネットワークを用いて、前記センサデータを前記発話の内容に対応する情報に変換する、
     請求項1に記載の情報処理装置。
  4.  前記ニューラルネットワークは、テキストと、当該テキストを無発声で読み上げた際の前記センサデータとを含む学習情報を用いた機械学習により得られる、
     請求項3に記載の情報処理装置。
  5.  前記ニューラルネットワークは、テキストを音素記号に変換した音素記号列と、当該テキストを無発声で読み上げた際の前記センサデータとを含む学習情報を用いた機械学習により得られる、
     請求項3に記載の情報処理装置。
  6.  前記ニューラルネットワークは、入力された無発声時の前記センサデータから単位時間当たりの音声特徴量を複数生成し、生成した複数の当該音声特徴量を時系列順に合成することで前記発話の内容に対応する情報を生成する、
     請求項3に記載の情報処理装置。
  7.  前記音声特徴量は、スペクトログラムである、
     請求項6に記載の情報処理装置。
  8.  前記制御部は、話者の視線を検出することにより取得される視線データに基づいて、当該話者が注視対象を注視中に当該注視対象に関する前記発話を行った場合、前記センサデータを前記発話の内容に対応する情報に変換する、
     請求項1に記載の情報処理装置。
  9.  前記センサデータは、話者が発声せずに顎又は口腔内の対象の少なくともいずれか一方を動かした際の前記皮膚運動を示す、
     請求項1に記載の情報処理装置。
  10.  前記機械学習は、ディープラーニングにより行われる、
     請求項4に記載の情報処理装置。
  11.  前記機械学習は、コンボリューショナルニューラルネットワークを用いて行われる、
     請求項10に記載の情報処理装置。
  12.  発話の際の皮膚運動を計測することにより取得されるセンサデータを当該発話の内容に対応する情報に変換すること、
     を含む、プロセッサにより実行される情報処理方法。
PCT/JP2020/048081 2020-01-20 2020-12-23 情報処理装置および情報処理方法 WO2021149441A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-006845 2020-01-20
JP2020006845 2020-01-20

Publications (1)

Publication Number Publication Date
WO2021149441A1 true WO2021149441A1 (ja) 2021-07-29

Family

ID=76992264

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/048081 WO2021149441A1 (ja) 2020-01-20 2020-12-23 情報処理装置および情報処理方法

Country Status (1)

Country Link
WO (1) WO2021149441A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691857A (zh) * 2021-08-27 2021-11-23 贵州东冠科技有限公司 基于增强现实的唇语屏蔽系统及方法
CN113810819A (zh) * 2021-09-23 2021-12-17 中国科学院软件研究所 一种基于耳腔振动的静默语音采集处理方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07181888A (ja) * 1993-12-24 1995-07-21 Nippon Telegr & Teleph Corp <Ntt> 発声代行装置
JP2003255994A (ja) * 2002-02-28 2003-09-10 Ntt Docomo Inc 音声認識装置及び音声認識方法
US20160314781A1 (en) * 2013-12-18 2016-10-27 Tanja Schultz Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
JP2017219746A (ja) * 2016-06-09 2017-12-14 三菱電機株式会社 音声出力制御装置および音声出力制御プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07181888A (ja) * 1993-12-24 1995-07-21 Nippon Telegr & Teleph Corp <Ntt> 発声代行装置
JP2003255994A (ja) * 2002-02-28 2003-09-10 Ntt Docomo Inc 音声認識装置及び音声認識方法
US20160314781A1 (en) * 2013-12-18 2016-10-27 Tanja Schultz Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
JP2017219746A (ja) * 2016-06-09 2017-12-14 三菱電機株式会社 音声出力制御装置および音声出力制御プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691857A (zh) * 2021-08-27 2021-11-23 贵州东冠科技有限公司 基于增强现实的唇语屏蔽系统及方法
CN113810819A (zh) * 2021-09-23 2021-12-17 中国科学院软件研究所 一种基于耳腔振动的静默语音采集处理方法及设备
CN113810819B (zh) * 2021-09-23 2022-06-28 中国科学院软件研究所 一种基于耳腔振动的静默语音采集处理方法及设备

Similar Documents

Publication Publication Date Title
US11715482B2 (en) Personalized, real-time audio processing
EP1083769B1 (en) Speech converting device and method
CN114556972A (zh) 用于辅助选择性听觉的系统和方法
US20230045237A1 (en) Wearable apparatus for active substitution
WO2021149441A1 (ja) 情報処理装置および情報処理方法
JP2000308198A (ja) 補聴器
US11895474B2 (en) Activity detection on devices with multi-modal sensing
CN114067782A (zh) 音频识别方法及其装置、介质和芯片系统
Rekimoto et al. Derma: silent speech interaction using transcutaneous motion sensing
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2023536270A (ja) 拡張現実におけるバイノーラル再生のためのヘッドホン等化および室内適応のためのシステムおよび方法
WO2020079918A1 (ja) 情報処理装置及び情報処理方法
US11069259B2 (en) Transmodal translation of feature vectors to audio for assistive devices
JP2004098252A (ja) コミュニケーション端末、口唇ロボットの制御方法及び口唇ロボットの制御装置
JP2000206986A (ja) 言語情報検出装置
US20240087597A1 (en) Source speech modification based on an input speech characteristic
JP7070402B2 (ja) 情報処理装置
CN116095548A (zh) 一种交互耳机及其系统
JP2021103191A (ja) 情報処理装置および情報処理方法
Matsui et al. Development of Hand Gesture Controlled Electrolarynx

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20915993

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 20915993

Country of ref document: EP

Kind code of ref document: A1