WO2017029850A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2017029850A1
WO2017029850A1 PCT/JP2016/065192 JP2016065192W WO2017029850A1 WO 2017029850 A1 WO2017029850 A1 WO 2017029850A1 JP 2016065192 W JP2016065192 W JP 2016065192W WO 2017029850 A1 WO2017029850 A1 WO 2017029850A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
information processing
text data
processing apparatus
Prior art date
Application number
PCT/JP2016/065192
Other languages
English (en)
French (fr)
Inventor
祐平 滝
伊藤 洋子
真一 河野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP16836842.1A priority Critical patent/EP3340240B1/en
Priority to US15/736,509 priority patent/US10643636B2/en
Publication of WO2017029850A1 publication Critical patent/WO2017029850A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/12Audiometering
    • A61B5/121Audiometering evaluating hearing capacity
    • A61B5/123Audiometering evaluating hearing capacity subjective methods
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6887Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
    • A61B5/6898Portable consumer electronic devices, e.g. music players, telephones, tablet computers
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7405Details of notification to user or communication with user or patient ; user input means using sound
    • A61B5/741Details of notification to user or communication with user or patient ; user input means using sound using synthesised speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2505/00Evaluating, monitoring or diagnosing in the context of a particular type of medical care
    • A61B2505/07Home care
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0002Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network
    • A61B5/0015Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network characterised by features of the telemetry system
    • A61B5/0022Monitoring a patient using a global network, e.g. telephone networks, internet
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays
    • A61B5/7435Displaying user selection data, e.g. icons in a graphical user interface
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays
    • A61B5/744Displaying an avatar, e.g. an animated cartoon character
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7465Arrangements for interactive communication between patient and care services, e.g. by using a telephone network
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7475User input or interface means, e.g. keyboard, pointing device, joystick
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Definitions

  • This disclosure relates to an information processing apparatus, an information processing method, and a program.
  • the success rate of listening to sound information by the user may vary depending on the user's auditory characteristics. For this reason, the granularity of information desired by the user may also change according to the user's auditory characteristics. Therefore, it is desired to provide a technique capable of increasing the possibility of outputting information of the granularity desired by the user.
  • the generation unit that generates the second text data based on the first text data and the information about the auditory characteristic of the first user, and the output that outputs the output information about the second text data
  • An information processing apparatus that controls a granularity of the second text data based on information relating to auditory characteristics of the first user.
  • a processor provides an information processing method including controlling a granularity of the second text data based on information on the auditory characteristics of the first user.
  • the computer generates the second text data based on the first text data and the information on the auditory characteristics of the first user, and the output information on the second text data.
  • An output unit for outputting, and the generation unit controls a granularity of the second text data based on information on the auditory characteristics of the first user, and a program for causing the program to function as an information processing device Provided.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different numerals after the same reference numerals. However, when it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same functional configuration, only the same reference numerals are given.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system 1 according to an embodiment of the present disclosure.
  • the information processing system 1 according to an embodiment of the present disclosure includes an information processing device 10-1 and an information processing device 10-2.
  • the information processing apparatus 10-1 is used by the user U1, and the information processing apparatus 10-2 is used by the user U2.
  • each of the information processing apparatus 10-1 and the information processing apparatus 10-2 has a telephone function.
  • the user U1 and the user U2 are the information processing apparatus 10-1 and the information processing apparatus 10-2. It is possible to transmit the sound information including the uttered voice to the other party via the.
  • each of the information processing apparatus 10-1 and the information processing apparatus 10-2 has a telephone function will be described.
  • each of the information processing apparatus 10-1 and the information processing apparatus 10-2 will be described later. May not have a telephone function.
  • each of the information processing apparatus 10-1 and the information processing apparatus 10-2 is a smartphone, but the forms of the information processing apparatus 10-1 and the information processing apparatus 10-2 are particularly limited. Not.
  • each of the information processing apparatus 10-1 and the information processing apparatus 10-2 may be a mobile phone or a game machine.
  • a voice voice or speech
  • a sound are used separately.
  • FIG. 2 is a block diagram illustrating a functional configuration example of the information processing apparatus 10.
  • the information processing apparatus 10 includes an image input unit 110, an operation input unit 115, a sound collection unit 120, an output unit 130, a sensor unit 125, a control unit 140, and a communication unit 150.
  • the image input unit 110 has a function of inputting an image.
  • the image input unit 110 includes a camera and inputs an image captured by the camera.
  • the number of cameras included in the image input unit 110 is not particularly limited as long as it is one or more. Further, the position where each of the one or more cameras included in the image input unit 110 is provided is not particularly limited.
  • the one or more cameras may include a monocular camera or a stereo camera.
  • the operation input unit 115 has a function of inputting a user U operation.
  • the operation input unit 115 may include a touch panel.
  • the method employed by the touch panel is not particularly limited, and may be a capacitance method, a resistance film method, an infrared method, or an ultrasonic method.
  • the operation input unit 115 may not be a touch panel as long as it has a function of inputting the operation of the user U.
  • the operation input unit 115 may be a camera or a hardware button.
  • the sound collection unit 120 has a function of obtaining sound information by collecting sound.
  • the sound collection unit 120 may include a microphone that exists at the upper end of the smartphone.
  • the number of microphones included in the sound collection unit 120 is not particularly limited as long as it is one or more.
  • the position where each of the one or more microphones included in the sound collection unit 120 is provided is not particularly limited.
  • the arrival direction of the sound can be estimated based on sound information obtained by sound collection by each of the plurality of microphones.
  • the sound collection unit 120 includes a microphone having directivity, the direction of arrival of sound can be estimated based on sound information obtained by sound collection by the microphone having directivity.
  • the sensor unit 125 has a function of detecting sensor data that is a source of user behavior information and user biometric information. For example, if the sensor unit 125 includes an acceleration sensor and an angular velocity sensor, the generation unit 142 may estimate the behavior information based on the acceleration detected by the acceleration sensor, the angular velocity detected by the angular velocity sensor, or the like. it can. In addition, if the sensor unit 125 includes a sensor that can detect sensor data related to the body, the generation unit 142 can also estimate biological information based on the sensor data related to the body.
  • the control unit 140 executes control of each unit of the information processing apparatus 10. As illustrated in FIG. 2, the control unit 140 includes an acquisition unit 141, a generation unit 142, and an output unit 143. Details of these functional blocks will be described later.
  • the control unit 140 may be configured by, for example, a CPU (Central Processing Unit).
  • the processing device 140 When the information processing device 140 is configured by a processing device such as a CPU, the processing device can be configured by an electronic circuit.
  • the communication unit 150 has a function of performing communication with another information processing apparatus 10.
  • the communication unit 150 includes a communication interface.
  • the communication unit 150 can communicate with another information processing apparatus 10 using a telephone function.
  • the storage unit 160 has a function of storing various data necessary for calculation by the control unit 140.
  • the storage unit 160 is configured by a storage device.
  • the audio output unit 170 has a function of outputting sound information.
  • the audio output unit 170 may be a speaker or headphones.
  • the display unit 180 has a function of displaying a screen.
  • the output unit 180 is stacked on the operation input unit 115, and corresponding positions overlap between the operation input unit 115 and the output unit 180.
  • the position where the output unit 180 is provided is not particularly limited.
  • the display unit 180 may be a liquid crystal display, an organic EL (Electro-Luminescence) display, an HMD (Head Mount Display), or the like, but may have other forms as long as it has a function of displaying a screen. It may be a display.
  • the generation unit 142 performs voice recognition processing on the sound information including the speech voice of the user U2 who is the other party of the call, and the voice recognition obtained by the voice recognition processing Second text data (hereinafter referred to as “output text data”) is generated based on the result (example of the first text data) and information on the auditory characteristics of the user U1.
  • the output part 143 outputs the output information regarding output text data.
  • the output information is displayed by the display unit 180 in the information processing apparatus 10-1, and is perceived by the visual sense of the user U1.
  • the generation unit 142 controls the granularity of the output text data based on information related to the auditory characteristics of the user U1. According to such control, it is possible to increase the possibility that the user U1 outputs information having the desired granularity.
  • the acquisition unit 141 acquires information related to the auditory characteristics of the user U1.
  • the acquisition method of the information regarding the auditory characteristic of the user U1 by the acquisition unit 141 is not particularly limited.
  • the acquisition unit 141 may acquire information related to the hearing characteristics of the user U1 based on a test result related to the hearing of the user U1 performed in advance.
  • FIG. 3 is a diagram showing an example of a screen used for a hearing test.
  • the display unit 180 displays a button Bu11.
  • the display unit 180 displays guidance that prompts the user U1 to press the button Bu11 when a sound emitted for a test is heard.
  • the acquisition unit 141 checks whether or not the user U1 has normally pressed the button Bu11 in response to the sound generation, by checking the volume and the sound volume while changing the frequency and the sound volume. Can be obtained for each frequency.
  • the hearing level for each frequency of the user U1 obtained in this way is acquired by the acquisition unit 141 as information related to the auditory characteristics of the user U1.
  • the generation unit 142 extracts, as one or a plurality of extraction data, one or a plurality of text data satisfying a predetermined relationship with a predetermined frequency region where the user's hearing level is low from the voice recognition result, and the one or a plurality of extractions
  • the output text data may be generated to include the data. According to this configuration, it is possible to further increase the possibility that the user U1 outputs information with the desired granularity.
  • the predetermined frequency region may include a frequency range in which the hearing level of the user U1 is lower than a predetermined hearing level threshold.
  • the predetermined hearing level threshold is acquired by the acquisition unit 141.
  • the predetermined frequency region may be referred to as “text-required frequency region F_txt”, and the predetermined hearing level threshold may be referred to as “text-required level threshold Txt_th”.
  • FIG. 4 is a diagram illustrating an example of information regarding the auditory characteristics of the user U1. As shown in FIG. 4, the information regarding the auditory characteristics of the user U1 indicates the hearing level of the user U1 at each frequency.
  • FIG. 4 shows a text-required level threshold Txt_th. Further, FIG. 4 shows a range of frequencies in which the hearing level of the user U1 is lower than the required text level threshold Txt_th (that is, the volume level that the user U1 can hear is higher than the required text level threshold Txt_th). This is shown as a frequency domain F_txt. Furthermore, the range that can be normally heard is generally indicated as “Rn”, and the range that is difficult for the user U1 to hear is indicated as “Ra”.
  • the generation unit 142 divides the speech recognition result into a plurality of divided data, and at least one of the corresponding one or a plurality of frequencies is a vowel element (hereinafter referred to as “text-required vowel required” belonging to the text-required frequency region F_txt).
  • the number of elements V_txt may be calculated for each of one or a plurality of divided data.
  • the generation unit 142 generates one or a plurality of pieces of divided data having a calculated number exceeding a predetermined number threshold (hereinafter also referred to as “text-required vowel element V_txt_th”) among the plurality of pieces of divided data. It is good to extract as extraction data. If the output text data is generated so as to include one or a plurality of extracted data extracted in this way, it is possible to further increase the possibility that the user U1 outputs information with a desired granularity. Examples of frequencies corresponding to vowel elements will be further described. FIG. 5 is a diagram illustrating an example of frequencies corresponding to vowel elements.
  • FIG. 5 two frequencies corresponding to five vowel elements (i, e, a, o, u) are shown.
  • the lower voice is called “first formant”, and the higher voice is called “second formant”.
  • FIG. 5 also shows the frequencies of the “first formant” and “second formant” corresponding to the five vowel elements (i, e, a, o, u), respectively.
  • first formant and second formant as an example of one or more frequencies corresponding to a vowel element.
  • the generation unit 142 may divide the speech recognition result in any unit.
  • the generation unit 142 may divide the speech recognition result into phrases by performing phrase analysis on the speech recognition result. Below, the example which divides
  • FIG. 6 is a diagram for explaining an example of processing executed after the voice recognition result is obtained until output information corresponding to the voice recognition result is output.
  • the generation unit 142 has obtained “At 10:00 am of Saturday” as an example of a speech recognition result.
  • the generation unit 142 performs phrase analysis on this “At 10:00 am of Saturday.”, Thereby performing “At” “10:00 am” “of” “Saturday.” As shown in FIG. Each can be obtained as a phrase.
  • the generation unit 142 decomposes each of “At”, “10:00 am”, “of”, and “Saturday.” Into readings, and requires at least one of the frequencies of “first formant” and “second formant”.
  • the number of vowel elements that belong to the textual frequency region F_txt can be obtained as the number “0”, “4”, “0”, and “2” of the required text vowel elements V_txt.
  • the reason why it is decomposed into readings is that characters that are not pronounced can be included in the speech recognition result.
  • V_txt_th 1 is set.
  • the generation unit 142 can generate output text data including “10:00 am” and “Saturday.” That have been “textured” (excluding “At” and “of” that have been “non-textured”). It is.
  • the output unit 143 can output output information regarding the output text data generated in this way.
  • FIG. 7 is a diagram illustrating a display example of output information. For example, as shown in FIG. 7, when the output information is displayed by the display unit 180 in the information processing apparatus 10-1, the output information is perceived by the visual sense of the user U1. Referring to FIG. 7, it is understood that information “Saturday” and “10:00 am” of the granularity desired by the user U1 is output.
  • the generation unit 142 may update the text-required level threshold Txt_th based on information regarding the environment in which the user U1 exists.
  • the information about the environment may be environmental noise.
  • environmental noise may be a sound collected in addition to the voice of U2 that is the other party of the call.
  • the generation unit 142 may update the text-required level threshold Txt_th so that the text-required level threshold Txt_th increases as the noise in the environment where the user U1 exists increases.
  • the generation unit 142 may update the text-required level threshold Txt_th based on the action information or the biological information of the user U1.
  • the generation unit 142 may update the text-required level threshold Txt_th with the new text-required level threshold Txt_th corresponding to the action information of the user U1.
  • the difficulty of hearing the sound information may change depending on the heart rate of the user U1.
  • the body temperature, the amount of sweat, the number of breaths, the number of blinks, the number of blinks, the eye movement, the gaze time the size of the pupil diameter, the blood pressure, the electroencephalogram, the body movement, the body position, the skin temperature, the skin electrical resistance, MV of the user U1.
  • the difficulty of hearing sound information may vary depending on (microvibration), myoelectric potential, and SPO 2 (blood oxygen saturation). Therefore, the generation unit 142 may update the text-required level threshold Txt_th with the new text-required level threshold Txt_th corresponding to the biometric information.
  • FIG. 8 is a flowchart illustrating an operation example of the information processing apparatus 10-1.
  • the flowchart shown in FIG. 8 merely shows an example of the operation of the information processing apparatus 10-1. Therefore, the operation of the information processing apparatus 10-1 is not limited to such an example.
  • the measurement of the auditory characteristic of the user U1 is executed (step S110). With this measurement, the acquisition unit 141 acquires information related to the auditory characteristics of the user U1. As described above, the auditory characteristic may be acquired by a technique other than measurement.
  • step S120 determines a frequency region having a higher hearing level than the text-required level threshold Txt_th as the text-required frequency region F_txt (step S120).
  • Step S110 and step S120 are grouped together as step S100. Details of step S100 will be described later with reference to FIG.
  • step S210 the generation unit 142 compares the frequency of the first formant and the second formant of each vowel with the text-required frequency region F_txt (step S210). Then, a set of vowels in which at least one of the frequencies of the first formant and the second formant falls within the text-required frequency region F_txt is set as the text-required vowel element V_txt (S220). Note that step S210 and step S220 are grouped together as step S200. Details of step S200 will be described later with reference to FIG.
  • the generation unit 142 acquires a speech recognition result (S310), and parses the speech recognition result into phrases by performing phrase analysis on the speech recognition result (step S320). In addition, the generation unit 142 acquires the reading of each phrase by performing reading analysis on each phrase (step S330). Then, the generation unit 142 calculates the number of text-needed vowel elements V_txt included in the reading of each phrase (step S340).
  • the generation unit 142 determines, for each phrase, whether or not the number of text-needed vowel elements V_txt exceeds the text-needed vowel element number threshold V_txt_th (step S350). If there is a phrase in which the number of required vowel elements V_txt exceeds the required vowel element number threshold V_txt_th, the generating unit 142 notifies the application of the required phrase as a required text phrase (step S360).
  • step S370 the generating unit 142 notifies the application of the required phrase as a text conversion unnecessary phrase (step S370).
  • Steps S310 to S370 are grouped together as step S300. Details of step S300 will be described later with reference to FIG.
  • FIG. 9 is a diagram illustrating an operation example of the determination process of the text-required frequency region F_txt.
  • the generation unit 142 sets an initial value to the frequency F (step S111).
  • generation part 142 acquires the hearing level in the frequency F from the information regarding the user's U1 auditory characteristic (step S112).
  • the generation unit 142 determines whether or not the hearing level at the frequency F exceeds the text-required level threshold value Txt_th (step S121).
  • step S121 when the hearing level at the frequency F exceeds the text-required level threshold value Txt_th (“Yes” in step S121), the generation unit 142 adds the frequency F to the text-required frequency region F_txt, and the process proceeds to step S123. Transition operation.
  • the generating unit 142 determines the text-required frequency region F_txt and ends (step S125). Thereafter, the operation proceeds to step S200.
  • the generation unit 142 determines whether or not the frequency F is within the target maximum frequency F_max (step S123). Then, when the frequency F is within the target maximum frequency F_max (“Yes” in step S123), the generation unit 142 acquires the next frequency (step S124) and shifts the operation to step S112). On the other hand, when the frequency F is within the range of the target maximum frequency F_max (“No” in Step S123), the generation unit 124 determines the text-required frequency region F_txt and ends the processing (Step S125). . Thereafter, the operation shifts to a search process for the text-required vowel element V_txt_th.
  • FIG. 10 is a diagram showing an operation example of the search processing for the text-needed vowel element V_txt_th.
  • the generation unit 142 extracts one vowel as a comparison target V_target from a vowel list V_list prepared in advance (step S211). Then, the generation unit 142 acquires the first formant frequency and the second formant frequency of the comparison target V_target (Step S212), and at least one of the first formant frequency and the second formant frequency of the comparison target V_target. Is determined to be within the range of the text-required frequency region F_txt (step S221).
  • step S223 is performed. Move the operation to.
  • the generation unit 142 determines that at least one of the first formant frequency and the second formant frequency of the comparison target V_target is within the text-required frequency region F_txt (in step S221, “ Yes ")
  • the comparison target V_target is added to the text-required vowel element V_txt (step S222), and the operation is shifted to step S223.
  • the generation unit 142 determines whether or not all the vowel lists V_list have been checked (step S223). If the generation unit 142 has not checked a part or all of the vowel list V_list (“No” in step S223), the generation unit 142 shifts the operation to step S211. On the other hand, when the generation unit 142 examines the entire vowel list V_list (“No” in Step SS223), the generating unit 142 determines the text-needed vowel element V_txt (Step S224).
  • FIG. 11 is a diagram showing an operation example of the text-required phrase determination process.
  • the generation unit 142 acquires a speech recognition result for the uttered speech (step S310). Then, the generation unit 142 divides the speech recognition result into phrases (step S320), acquires the reading of each phrase, and generates a reading list R_list (step S330). One phrase is acquired from the reading list R_list (step S341), and it is determined whether or not the number of text-required vowel elements V_txt has exceeded the text-required vowel element number threshold V_txt_th (step S351).
  • step S351 When the number of text-needed vowel elements V_txt exceeds the text-needed vowel element number threshold V_txt_th (“No” in step S351), the generating unit 142 shifts the operation to step S365. On the other hand, when the number of text-required vowel elements V_txt does not exceed the text-required vowel element number threshold V_txt_th (“Yes” in step S351), the generation unit 142 adds the phrase to the text-required phrase. (Step S360), the operation is shifted to step S365.
  • the generation unit 142 determines whether or not it has been executed for all items in the reading list R_list (step S365). If the generation unit 142 has not executed the reading list R_list for some or all items (step S365 “No”), the operation proceeds to step S341. On the other hand, when the generation unit 141 executes the processing for all items of the reading list R_list (step S365 “Yes”), the generation unit 141 determines the text-required phrase (step S370) and supplies it to the application as the text-required phrase. Be notified.
  • FIG. 12 is a diagram illustrating an example of a frequency band (passband) of speech spoken in each language.
  • FIG. 12 shows passbands for Japanese, English, Italian, German and Russian. As can be seen from FIG. 12, the passband differs depending on the language used. Therefore, since an auditory level corresponding to this passband has only to be acquired, a test relating to hearing may be performed on a frequency region corresponding to this passband.
  • FIG. 13 is a diagram showing an example of a first formant and a second formant in Japanese.
  • FIG. 14 is a diagram illustrating an example of a first formant and a second formant in English. Referring to FIGS. 13 and 14, it can be understood that there is not much difference between the first formant frequency and the second formant frequency between Japanese and English. As can be seen from the English examples, it is assumed that the same is true between Japanese and other foreign languages. Therefore, the present embodiment can be applied to sounds spoken in any foreign language.
  • the acquisition unit 141 may acquire information related to the auditory characteristics of the user U1 based on the attribute information of the user U1.
  • the attribute information may be predetermined information (for example, age, language used, gender, etc.) that can affect the auditory characteristics. If information on auditory characteristics is associated in advance for each attribute information, the acquisition unit 141 acquires information on auditory characteristics corresponding to the attribute information of the user U1 based on the information on the association and the auditory characteristics. Can do.
  • the acquisition unit 141 may acquire information related to the auditory characteristics of the user U1 registered in advance.
  • Information regarding the auditory characteristics of the user U1 may be registered in the storage unit 160, or may be registered in a server (not shown).
  • the information regarding an auditory characteristic is registered for every user, the information regarding the auditory characteristic of the user U1 may be acquired from the information regarding the auditory characteristic for each user.
  • the information regarding a general user's auditory characteristic may be acquired as information regarding the auditory characteristic of the user U1.
  • the acquisition part 141 is the information regarding a user's auditory characteristic based on the information regarding the environment where the user U1 exists. May be obtained. For example, it is considered that the greater the environmental noise, the greater the difficulty in listening to sound information by the user U1. Therefore, the generation unit 142 may change the auditory level so that the auditory level greatly decreases as the noise in the environment where the user U1 exists increases.
  • FIG. 15 is a diagram illustrating an example in which the auditory level is changed according to environmental noise.
  • information Li ⁇ b> 1 related to the auditory characteristics of the user U ⁇ b> 1 in the normal case is shown.
  • environmental noise noise N_L inside a running train
  • noise N_M in a zoo noise N_H during dishwashing are shown.
  • the hearing level at the main frequency of the environmental noise is considered to be lowered, and the auditory level may be changed so as to reduce the hearing level at the main frequency.
  • FIG. 15 shows information Li2 regarding the auditory characteristics after the change.
  • FIG. 16 is a diagram illustrating a display example of information related to the environment.
  • a button Bu21 for selecting to increase the amount of text As shown in FIG. 16, a button Bu21 for selecting to increase the amount of text, a button Bu22 for selecting a moderate amount of text, and a decrease in the amount of text.
  • a button Bu23 for selection is displayed on the display unit 180. Further, as information related to the environment, information Bu24 indicating that the environmental noise is large, information Bu25 indicating that the environmental noise is moderate, and information Bu26 indicating that the environmental noise is small are displayed on the display unit 180.
  • the acquisition unit 141 acquires information on the user's auditory characteristics based on the action information of the user U1. Also good. For example, when the user U1 is sitting, standing, walking, running, riding a train, and driving a car, the sound information can be heard. The stiffness can be different. Therefore, the acquisition unit 141 may acquire information related to auditory characteristics corresponding to the action information of the user U1.
  • FIG. 17 is a diagram illustrating an example of changing the hearing level according to the behavior information.
  • various behavior information is shown as examples of behavior recognition results, and a case is assumed where behavior information indicating that a car is being driven is acquired by the acquisition unit 141.
  • the acquisition unit 141 may change the hearing level so as to decrease the hearing level.
  • a screen Bu51 indicating that text conversion is actively performed is displayed.
  • the user U1 can easily grasp how much the speech recognition result is converted into text.
  • the behavior information “Driving” of the user U ⁇ b> 1 may be displayed by the display unit 180. Then, it becomes possible for the user U1 to easily understand how difficult it is to listen to the speech spoken by the user 2. Further, the user U1 who has browsed the behavior information may be allowed to select how much the information processing apparatus 10-1 performs text conversion.
  • the acquisition unit 141 acquires information on the user's auditory characteristics based on the biometric information of the user U1. Also good. For example, the difficulty of hearing sound information may differ depending on whether the user U1 is exercising or stationary. Therefore, the acquisition unit 141 may acquire information related to auditory characteristics corresponding to the biological information of the user U1.
  • FIG. 18 is a diagram illustrating an example of changing the auditory level according to biological information.
  • the heart rate is shown as an example of the sensing result, and it is assumed that the biological information that the acquisition unit 141 is exercising is acquired. When exercising, it is considered that sound information is harder to hear than usual. Therefore, the acquisition unit 141 may change the hearing level so as to decrease the hearing level.
  • a screen Bu61 indicating that text conversion is actively performed is displayed.
  • the user U1 can easily grasp how much the speech recognition result is converted into text.
  • the biological information “exercising” of the user U1 may be displayed by the display unit 180. Then, it becomes possible for the user U1 to easily understand how difficult it is to listen to the speech spoken by the user 2. Further, the user U1 who has browsed the behavior information may be allowed to select how much the information processing apparatus 10-1 performs text conversion.
  • the scene in which the user U1 and the user U2 have a conversation using the telephone function of the information processing apparatus 10-1 and the information processing apparatus 10-2 has been described. Is not limited to such a scene.
  • the technology of the present disclosure can be widely applied to the healthcare field. For example, in a scene where a patient receives a dental treatment by a dentist, the dentist and the patient may not be able to hear each other's voice due to the dental treatment sound.
  • the technology of the present disclosure can also be applied to the treatment of a patient's teeth by such a dentist.
  • FIG. 19 is a diagram for explaining a case where the technique of the present disclosure is applied to a dental treatment scene.
  • examples of phrases made into text from the speech recognition result of the uttered voice by the patient are shown as phrases Bu31 and Bu32.
  • the dentist can make use of the results of seeing the phrases Bu31 and Bu32 in the treatment of teeth.
  • examples of phrases made into text from the speech recognition result of the uttered speech by the dentist are shown as phrase Bu33 and phrase Bu34.
  • the patient can reply to the dentist with respect to the result of viewing the phrases Bu33 and Bu34.
  • the output text data is displayed as the output information
  • the displayed information may include an image and a stamp in addition to the output text data.
  • the output unit 143 may output an image or stamp corresponding to the noun
  • the display unit 180 may display the image or stamp. With such a function, it becomes possible to increase the speed of understanding the utterance content of the user U2 by the user U1.
  • FIG. 20 is a diagram for explaining a case where a predetermined noun is included in the output text data. As shown in FIG. 20, it is assumed that “BBQ (barba queue)” is included in the output text data. At this time, as shown in FIG. 20, the output 143 may output the image Bu41 and the stamp Bu42 corresponding to “BBQ (Barba queue)”, and the display unit 180 may display the image Bu41 and the stamp Bu42.
  • the output information is output only once.
  • the output unit 143 outputs the output information again when a predetermined condition is satisfied after the output information is output.
  • the predetermined condition is not particularly limited. Therefore, the predetermined condition may be a condition that a predetermined operation by the user U1 is performed, or may be a predetermined time after the call ends. The description will be continued by taking as an example a case where the predetermined condition is that a predetermined time has elapsed.
  • FIG. 21 is a diagram for explaining an example of outputting the output information again.
  • “10:00 am” and “Saturday” are converted into text from the speech recognition result of the speech of the user U2 who is the other party of the call, and these are displayed on the display unit 180 as output text data.
  • a notification screen Bu71 is displayed.
  • a button Bu72 for selecting to reconfirm each of “10:00 am” and “Saturday”. , Bu73 may be displayed.
  • the generation Bu142 is a user who is a call partner for this “10:00 am”.
  • the mail application may be automatically activated to confirm again with U2.
  • the display unit 180 may display a message for asking whether or not “10:00 am” is spoken and a button Bu74 for transmitting the message.
  • the output information is displayed in the information processing apparatus 10-1 that receives the voice uttered by the user U2.
  • the output information is used by the uttering user U2. It may be displayed by the information processing apparatus 10-2.
  • the user U2 can also grasp sounds that are difficult to hear for the user U1, and can use the grasped results for re-uttering or correcting the text.
  • the text correction result may be transmitted to the information processing apparatus 10-1 of the user U1 and displayed on the information processing apparatus 10-1.
  • FIG. 22 is a diagram showing a display example of output information by the information processing apparatus 10-2 of the user U2 who is speaking.
  • “10:00 am” and “Saturday” are converted into text from the speech recognition result for the speech of the user U 2 who is speaking, and these are output as text data by the display unit 180 in the information processing apparatus 10-2. It is displayed. Further, buttons Bu81 and Bu82 for selecting correction of “10:00 am” and “Saturday” are displayed.
  • FIG. 23 is a diagram illustrating an example of output information displayed after a call using the telephone function is completed.
  • each of the information processing apparatus 10-1 and the information processing apparatus 10-2 is a smartphone has been described as an example.
  • the configuration of each of the information processing apparatus 10-1 and the information processing apparatus 10-2 is particularly limited. It is not limited.
  • the information processing apparatus 10-1 may be an HMD (Head Mount Display).
  • FIG. 24 is a diagram illustrating a case where the information processing apparatus 10-1 is an HMD. In FIG. 24, a display unit 180 realized by the HMD is shown.
  • FIG. 25 is a diagram for describing a case where the output information includes sound information generated based on the output text data. Referring to FIG. 25, the user U1 wears the audio output unit 170.
  • the voice output unit 170 may output sound information generated based on the output text data. If it does so, the user U1 can grasp
  • FIG. 26 is a diagram showing a display example of a video with sound information attached.
  • the video Ct is reproduced and displayed.
  • the sound information attached to the video Ct is reproduced and output. Therefore, in the information processing apparatus 10-1, the generation unit 142 performs voice recognition processing on the sound information attached to the video Ct, and uses the voice recognition result obtained by the voice recognition processing as text data. Good. Alternatively, a caption attached to the video may be used as text data.
  • the generation unit 142 may make the granularity of the output text data lower than the granularity of the speech recognition result. More specifically, the generation unit 142 may make the granularity of the output text data lower than the granularity of the speech recognition result by excluding predetermined words from the speech recognition result. For example, when “Hi John, we need to meet at the station around 10:00 am” is obtained as the speech recognition result, the speech recognition result is “Hi John,” “we need to meet” “at the station”. It is assumed that it has been decomposed into “around 10:00 am”.
  • the generation unit 142 may remove unnecessary words / phrases determined for each language from the phrases obtained in this manner.
  • the unnecessary phrase may be a preposition or an emphasis expression. For example, since “need to”, “at”, and “around” are prepositions, “Hi John,” “we meet”, “the station”, and “10:00 am” may be displayed. Thereby, it is possible to make a user browse more highly necessary information.
  • FIG. 27 is a block diagram illustrating a hardware configuration example of the information processing apparatus 10 according to the embodiment of the present disclosure.
  • the information processing apparatus 10 includes a CPU (Central Processing unit) 901, a ROM (Read Only Memory) 903, and a RAM (Random Access Memory) 905.
  • the information processing apparatus 10 may include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the information processing apparatus 10 may include an imaging device 933 and a sensor 935 as necessary.
  • the information processing apparatus 10 may include a processing circuit called a DSP (Digital Signal Processor) or ASIC (Application Specific Integrated Circuit) instead of or in addition to the CPU 901.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls all or a part of the operation in the information processing device 10 according to various programs recorded in the ROM 903, the RAM 905, the storage device 919, or the removable recording medium 927.
  • the ROM 903 stores programs and calculation parameters used by the CPU 901.
  • the RAM 905 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901, the ROM 903, and the RAM 905 are connected to each other by a host bus 907 configured by an internal bus such as a CPU bus. Further, the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915 is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may include a microphone that detects the user's voice.
  • the input device 915 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone that supports the operation of the information processing device 10.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901. The user operates the input device 915 to input various data to the information processing device 10 or instruct a processing operation.
  • An imaging device 933 which will be described later, can also function as an input device by imaging a user's hand movement, a user's finger, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger.
  • the output device 917 is a device that can notify the user of the acquired information visually or audibly.
  • the output device 917 is, for example, a display device such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a projector, an audio output device such as a hologram display device, a speaker and headphones, As well as a printer device.
  • the output device 917 outputs the result obtained by the processing of the information processing device 10 as a video such as text or an image, or outputs it as a sound such as voice or sound.
  • the output device 917 may include a light or the like to brighten the surroundings.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing device 10.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the drive 921 is a reader / writer for a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing apparatus 10.
  • the drive 921 reads information recorded on the attached removable recording medium 927 and outputs the information to the RAM 905.
  • the drive 921 writes a record in the attached removable recording medium 927.
  • the connection port 923 is a port for directly connecting a device to the information processing apparatus 10.
  • the connection port 923 can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • Various data can be exchanged between the information processing apparatus 10 and the external connection device 929 by connecting the external connection device 929 to the connection port 923.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to the communication network 931.
  • the communication device 925 can be, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925 transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931 connected to the communication device 925 is a wired or wireless network, such as the Internet, a home LAN, infrared communication, radio wave communication, or satellite communication.
  • the imaging device 933 uses various members such as an imaging element such as a CCD (Charge Coupled Device) or CMOS (Complementary Metal Oxide Semiconductor), and a lens for controlling the imaging of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933 may capture a still image or may capture a moving image.
  • the sensor 935 is various sensors such as an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, and a sound sensor. For example, the sensor 935 acquires information about the state of the information processing apparatus 10 itself, such as the attitude of the housing of the information processing apparatus 10, and information about the surrounding environment of the information processing apparatus 10, such as brightness and noise around the information processing apparatus 10. To do.
  • the sensor 935 may include a GPS sensor that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the apparatus.
  • GPS Global Positioning System
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • the generation unit that generates the second text data based on the first text data and the information related to the auditory characteristic of the user, and the second text data And an output unit that outputs output information, wherein the generation unit is configured to control a granularity of the second text data based on information related to the auditory characteristics of the user. According to such a configuration, it is possible to increase the possibility of outputting information of the granularity desired by the user.
  • the position of each component is not particularly limited as long as the operation of the information processing system 1 described above is realized.
  • the image input unit 110, the operation input unit 115, the sound collection unit 120, the sensor unit 125, the communication unit 150, the storage unit 160, the audio output unit 170, the display unit 180, and the control unit 140 are connected to a network. It may be provided in different devices connected via each other.
  • the control unit 140 corresponds to a server such as a web server or a cloud server, for example, and includes an image input unit 110, an operation input unit 115, a sound collection unit 120, a sensor unit 125, a communication unit 150, and a storage unit.
  • 160, the audio output unit 170, and the display unit 180 may correspond to a client connected to the server via a network.
  • control unit 140 may not be accommodated in the same device.
  • some of the acquisition unit 141, the generation unit 142, and the output unit 143 may exist in an apparatus different from the control unit 140.
  • the generation unit 141 may exist in a server different from the control unit 140 including the acquisition unit 141 and the output unit 143.
  • the generating unit extracts one or a plurality of text data satisfying a predetermined relationship with a predetermined frequency region having a low hearing level of the first user from the first text data as one or a plurality of extracted data, Generating the second text data to include one or more extracted data;
  • the information processing apparatus according to (1).
  • the predetermined frequency region includes a range of frequencies where the hearing level of the first user is lower than a predetermined hearing level threshold.
  • the first text data includes text data based on content.
  • the generation unit divides the first text data into a plurality of divided data, and determines the number of vowel elements in which at least one of the corresponding one or more frequencies belongs to the frequency domain as the one or more divided data.
  • the information processing apparatus includes an acquisition unit that acquires information related to auditory characteristics of the first user.
  • the information processing apparatus according to any one of (1) to (6).
  • the acquisition unit acquires information on auditory characteristics of the first user based on the attribute information of the first user.
  • the information processing apparatus according to (7). (9)
  • the acquisition unit acquires information on auditory characteristics of the first user registered in advance, The information processing apparatus according to (7). (10) The acquisition unit acquires information on auditory characteristics of the first user based on information on an environment in which the first user exists.
  • the information processing apparatus according to (7).
  • the acquisition unit acquires information on auditory characteristics of the first user based on the behavior information or biological information of the first user.
  • the information processing apparatus according to (7).
  • the information processing apparatus includes an acquisition unit that acquires the predetermined hearing level threshold.
  • the generation unit updates the predetermined hearing level threshold based on information about an environment in which the first user exists.
  • the information processing apparatus according to (12).
  • the generation unit updates the predetermined hearing level threshold based on the behavior information or biological information of the first user.
  • the information processing apparatus (12).
  • the output unit outputs the output information again when a predetermined condition is satisfied after outputting the output information.
  • the information processing apparatus according to any one of (1) to (14).
  • the output information includes at least one of sound information, image information, and vibration information generated based on the second text data.
  • the information processing apparatus according to any one of (1) to (15).
  • the generation unit lowers the granularity of the second text data than the granularity of the first text data.
  • the information processing apparatus according to any one of (1) to (16).
  • the generation unit makes the granularity of the second text data lower than the granularity of the first text data by excluding predetermined words from the first text data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザが所望する粒度の情報を出力する可能性を高めることが可能な技術が提供されることが望まれる。 【解決手段】第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、ユーザによる音情報の知覚をサポートするための技術として様々な技術が開示されている。例えば、補聴器を利用して音情報を知覚しようとするユーザに音情報に対する音声認識結果に対応する表示を閲覧させる技術が開示されている(例えば、特許文献1参照。)。
特開2001-25096号公報
 しかし、ユーザの聴覚特性に応じて、ユーザによる音情報の聞き取りの成功率は変化し得る。そのため、ユーザの聴覚特性に応じて、ユーザが所望する情報の粒度も変化し得る。そこで、ユーザが所望する粒度の情報を出力する可能性を高めることが可能な技術が提供されることが望まれる。
 本開示によれば、第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置が提供される。
 本開示によれば、第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成することと、前記第二のテキストデータに関する出力情報を出力することと、を含み、プロセッサにより、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御することを含む、情報処理方法が提供される。
 本開示によれば、コンピュータを、第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、ユーザが所望する粒度の情報を出力する可能性を高めることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理装置の機能構成例を示すブロック図である。 聴覚に関するテストに利用される画面例を示す図である。 ユーザの聴覚特性に関する情報の例を示す図である。 母音要素に対応する周波数の例を示す図である。 音声認識結果が得られてから音声認識結果に応じた出力情報が出力されるまでに実行される処理の例を説明するための図である。 出力情報の表示例を示す図である。 情報処理装置の動作例を示すフローチャートである。 要テキスト化周波数領域の決定処理の動作例を示す図である。 要テキスト化母音要素の探索処理の動作例を示す図である。 要テキスト化語句判定処理の動作例を示す図である。 各言語により話される音声の周波数帯(パスバンド)の例を示す図である。 日本語における第1フォルマントおよび第2フォルマントの例を示す図である。 英語における第1フォルマントおよび第2フォルマントの例を示す図である。 環境ノイズに応じて聴覚レベルを変化させる例を示す図である。 環境に関する情報の表示例を示す図である。 行動情報に応じて聴覚レベルを変化させる例を示す図である。 生体情報に応じて聴覚レベルを変化させる例を示す図である。 本開示の技術が歯の治療場面に適用された場合を説明するための図である。 出力テキストデータに所定の名詞が含まれていた場合について説明するための図である。 出力情報を再度出力する例を説明するための図である。 発話しているユーザの情報処理装置による出力情報の表示例を示す図である。 電話機能による通話が終わった後に表示される出力情報の例を示す図である。 情報処理装置がHMDである場合を示す図である。 出力情報が、出力テキストデータに基づいて生成された音情報を含む場合を説明するための図である。 音情報が付された映像の表示例を示す図である 情報処理装置のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の実施形態
  1.1.システム構成例
  1.2.機能構成例
  1.3.情報処理システムの機能詳細
  1.4.情報処理装置の動作例
  1.5.種々の変形例
  1.6.ハードウェア構成例
 2.むすび
 <1.本開示の一実施形態>
 [1.1.システム構成例]
 まず、図面を参照しながら本開示の一実施形態に係る情報処理システム1の構成例について説明する。図1は、本開示の一実施形態に係る情報処理システム1の構成例を示す図である。図1に示したように、本開示の一実施形態に係る情報処理システム1は、情報処理装置10-1および情報処理装置10-2を備える。情報処理装置10-1は、ユーザU1によって利用され、情報処理装置10-2は、ユーザU2によって利用される。
 例えば、情報処理装置10-1および情報処理装置10-2それぞれは、電話機能を有している。かかる電話機能により、情報処理装置10-1と情報処理装置10-2とが電話接続されている間は、ユーザU1とユーザU2とは、情報処理装置10-1と情報処理装置10-2とを介して、自身の発話音声を含んだ音情報を相手に送信することが可能である。以下では、情報処理装置10-1および情報処理装置10-2それぞれが電話機能を有している例を説明するが、情報処理装置10-1および情報処理装置10-2それぞれは、後述するように電話機能を有していなくてもよい。
 なお、図1に示した例では、情報処理装置10-1および情報処理装置10-2それぞれは、スマートフォンであるが、情報処理装置10-1および情報処理装置10-2それぞれの形態は特に限定されない。例えば、情報処理装置10-1および情報処理装置10-2それぞれは、携帯電話であってもよいし、ゲーム機などであってもよい。なお、以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。
 以上、情報処理システム1の構成例について説明した。
 [1.2.機能構成例]
 続いて、情報処理装置10の機能構成例について説明する。図2は、情報処理装置10の機能構成例を示すブロック図である。図2に示したように、情報処理装置10は、画像入力部110と、操作入力部115と、集音部120と、出力部130と、センサ部125と、制御部140と、通信部150と、記憶部160と、音声出力部170と、表示部180とを備える。
 画像入力部110は、画像を入力する機能を有する。画像入力部110はカメラを含んでおり、カメラによって撮像された画像を入力する。画像入力部110に含まれるカメラの数は1以上であれば特に限定されない。そして、画像入力部110に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
 操作入力部115は、ユーザUの操作を入力する機能を有する。例えば、操作入力部115は、タッチパネルを含んでよい。タッチパネルが採用する方式は特に限定されず、静電容量方式であってもよいし、抵抗膜方式であってもよいし、赤外線方式であってもよいし、超音波方式であってもよい。また、操作入力部115はユーザUの操作を入力する機能を有していればタッチパネルでなくてもよく、例えば、カメラであってもよいし、ハードウェアボタンであってもよい。
 集音部120は、集音によって音情報を得る機能を有する。例えば、集音部120は、スマートフォンの上端に存在するマイクロフォンを含んでいてよい。しかし、集音部120に含まれるマイクロフォンの数は1以上であれば特に限定されない。また、集音部120に含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。
 ただし、集音部120が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによる集音によって得られた音情報に基づいて音の到来方向が推定され得る。また、集音部120が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによる集音によって得られた音情報に基づいて音の到来方向が推定され得る。
 センサ部125は、ユーザの行動情報およびユーザの生体情報のもとになるセンサデータを検出する機能を有する。例えば、生成部142は、センサ部125が加速度センサおよび角速度センサを含んでいれば、加速度センサによって検出された加速度や、角速度センサによって検出された角速度などに基づいて、行動情報を推定することができる。また、生成部142は、センサ部125が身体に関するセンサデータを検出可能なセンサを含んでいれば、身体に関するセンサデータに基づいて、生体情報を推定することもできる。
 制御部140は、情報処理装置10の各部の制御を実行する。図2に示したように、制御部140は、取得部141と、生成部142と、出力部143とを備える。これらの各機能ブロックについての詳細は、後に説明する。なお、制御部140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
 通信部150は、他の情報処理装置10との間で通信を行う機能を有する。例えば、通信部150は、通信インターフェースにより構成される。例えば、通信部150は、電話機能により、他の情報処理装置10との間で通信を行うことが可能である。記憶部160は、制御部140による演算に必要な各種データを記憶する機能を有する。例えば、記憶部160は、ストレージ装置により構成される。音声出力部170は、音情報を出力する機能を有する。例えば、音声出力部170は、スピーカであってもよいし、ヘッドホンであってもよい。
 表示部180は、画面を表示する機能を有する。出力部180は、操作入力部115に積層されており、操作入力部115と出力部180との間で対応する位置同士が重なり合っている。しかし、出力部180が設けられる位置は特に限定されない。また、典型的には、表示部180は、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、HMD(Head Mount Display)などであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
 以上、情報処理装置1の機能構成例について説明した。
 [1.3.情報処理システムの機能詳細]
 続いて、情報処理システム1の機能詳細について説明する。まず、ユーザU1が情報処理装置10-1を利用して、情報処理装置10-2を利用するユーザU2との間で電話機能により通話をする場面を想定する。ここで、ユーザU1の聴覚特性に応じて、ユーザU1による音情報の聞き取りの成功率は変化し得ると考えられる。そのため、ユーザU1の聴覚特性に応じて、ユーザU1が所望する情報の粒度も変化し得る。そこで、ユーザU1が所望する粒度の情報を出力する可能性を高めることが可能な技術が提供されることが望まれる。
 具体的に、情報処理装置10-1において、生成部142は、通話の相手であるユーザU2の発話音声を含んだ音情報に対して音声認識処理を施し、音声認識処理により得られた音声認識結果(第一のテキストデータの例)とユーザU1の聴覚特性に関する情報とに基づいて第二のテキストデータ(以下、「出力テキストデータ」と言う。)を生成する。そして、出力部143は、出力テキストデータに関する出力情報を出力する。例えば、出力情報は、情報処理装置10-1における表示部180によって表示され、ユーザU1の視覚によって知覚される。
 このとき、生成部142は、ユーザU1の聴覚特性に関する情報に基づいて、出力テキストデータの粒度を制御する。かかる制御によれば、ユーザU1が所望する粒度の情報を出力する可能性を高めることが可能となる。
 以下では、かかる機能詳細についてさらに具体的に説明する。まず、取得部141は、ユーザU1の聴覚特性に関する情報を取得する。取得部141によるユーザU1の聴覚特性に関する情報の取得手法は特に限定されない。一例として、取得部141は、あらかじめ実施されたユーザU1の聴覚に関するテスト結果に基づいてユーザU1の聴覚特性に関する情報を取得してよい。
 図3は、聴覚に関するテストに利用される画面例を示す図である。図3を参照すると、ユーザU1の情報処理装置10-1において、表示部180は、ボタンBu11を表示している。また、図3を参照すると、表示部180は、テスト用に発せられた音が聞こえた場合にボタンBu11を押下することをユーザU1に促すガイダンスを表示している。取得部141は、音の発生に対応してユーザU1が正常にボタンBu11を押下したか否かを、周波数および音量を変化させながら検査することによって、ユーザU1が聞き取ることができる音量を聴力レベルとして周波数ごとに取得することができる。
 このようにして得られたユーザU1の周波数ごとの聴力レベルは、取得部141によって、ユーザU1の聴覚特性に関する情報として取得される。続いて、生成部142は、音声認識結果からユーザの聴力レベルが低い所定の周波数領域と所定の関係を満たす1または複数のテキストデータを1または複数の抽出データとして抽出し、1または複数の抽出データを含むように出力テキストデータを生成するとよい。かかる構成によれば、ユーザU1が所望する粒度の情報を出力する可能性をさらに高めることが可能となる。
 所定の周波数領域は、ユーザU1の聴力レベルが所定の聴力レベル閾値よりも低い周波数の範囲を含んでよい。所定の聴力レベル閾値は、取得部141によって取得される。以下では、所定の周波数領域を「要テキスト化周波数領域F_txt」と言い、所定の聴力レベル閾値を「要テキスト化レベル閾値Txt_th」と言う場合もある。図4は、ユーザU1の聴覚特性に関する情報の例を示す図である。図4に示すように、ユーザU1の聴覚特性に関する情報は、各周波数におけるユーザU1の聴力レベルを示している。
 また、図4には、要テキスト化レベル閾値Txt_thが示されている。また、図4には、ユーザU1の聴力レベルが要テキスト化レベル閾値Txt_thよりも低い(すなわち、ユーザU1が聞き取り可能な音量レベルが要テキスト化レベル閾値Txt_thよりも大きい)周波数の範囲が要テキスト化周波数領域F_txtとして示されている。さらに、一般的に正常に聞き取り可能な範囲が「Rn」として示され、ユーザU1にとって聞き取りにくい範囲が「Ra」として示されている。
 ここで、人間の聴覚では、母音が聞き取りにくくなるほど、その母音を要素とする音の判別が難しくなるのが通例である。また、母音には、1または複数の周波数成分が含まれている。そこで、生成部142は、音声認識結果を複数の分割データに分割し、対応する1または複数の周波数のうちの少なくとも一つが要テキスト化周波数領域F_txtに属する母音要素(以下、「要テキスト化母音要素V_txt」とも言う。)の個数を1または複数の分割データそれぞれについて算出するとよい。
 そして、生成部142は、複数の分割データのうち、算出した個数が所定の個数閾値(以下、「要テキスト化母音要素V_txt_th」とも言う。)を超える1または複数の分割データを1または複数の抽出データとして抽出するとよい。このようにして抽出された1または複数の抽出データを含むように出力テキストデータが生成されれば、ユーザU1が所望する粒度の情報を出力する可能性をさらに高めることが可能となる。母音要素に対応する周波数の例についてさらに説明する。図5は、母音要素に対応する周波数の例を示す図である。
 図5を参照すると、5つの母音要素(i、e、a、o、u)それぞれに対応する二つの周波数が示されている。ここで、各母音要素に対応する二つの周波数を有する音声のうち、低いほうの音声は「第1フォルマント」と言われ、高いほうの音声は「第2フォルマント」と言われている。図5にも、5つの母音要素(i、e、a、o、u)それぞれに対応して、「第1フォルマント」および「第2フォルマント」それぞれの周波数が示されている。以下では、母音要素に対応する1または複数の周波数の例として、「第1フォルマント」および「第2フォルマント」を用いて説明する。
 また、生成部142は、音声認識結果をどのような単位で分割してもよい。例えば、生成部142は、音声認識結果に対して句解析を行うことによって、音声認識結果を句単位に分割してもよい。以下では、このように音声認識結果を句単位に分割する例を説明する。続いて、音声認識結果の例として「At 10:00am of Saturday.」が得られてから、この音声認識結果に応じた出力情報が出力されるまでに、情報処理装置10-1によって実行される処理の例について説明する。
 図6は、音声認識結果が得られてから音声認識結果に応じた出力情報が出力されるまでに実行される処理の例を説明するための図である。図6に示すように、生成部142が、音声認識結果の例として「At 10:00am of Saturday.」を得た場合を想定する。このとき、生成部142は、この「At 10:00am of Saturday.」に対して句解析を行うことによって、図6に示すように、「At」「10:00am」「of」「Saturday.」それぞれを句として得ることができる。
 続いて、生成部142は、「At」「10:00am」「of」「Saturday.」それぞれを読みに分解し、「第1フォルマント」および「第2フォルマント」の周波数のうちの少なくとも一つが要テキスト化周波数領域F_txtに属する母音要素の個数を要テキスト化母音要素V_txtの個数「0」「4」「0」「2」として得ることができる。読みに分解するのは、音声認識結果に発音されない文字も入り得るからである。ここで、一例として、要テキスト化母音要素個数閾値V_txt_th=1に設定されている場合を想定する。
 このとき、図6に示すように、生成部142は、「At」「10:00am」「of」「Saturday.」それぞれの要テキスト化母音要素V_txtの個数「0」「4」「0」「2」のうち、要テキスト化母音要素個数閾値V_txt_th=1を超える要テキスト化母音要素V_txtの個数「4」「2」に対応する「10:00am」「Saturday.」を、「テキスト化」する。一方、要テキスト化母音要素個数閾値V_txt_th=1を超えない要テキスト化母音要素V_txtの個数「0」「0」に対応する「At」「of」を、「非テキスト化」する。
 生成部142は、「テキスト化」した「10:00am」「Saturday.」が含まれた(「非テキスト化」した「At」「of」が除外された)出力テキストデータを生成することが可能である。出力部143は、このようにして生成された出力テキストデータに関する出力情報を出力することが可能である。図7は、出力情報の表示例を示す図である。例えば、図7に示すように、出力情報が情報処理装置10-1における表示部180によって表示されると、ユーザU1の視覚によって出力情報が知覚される。図7を参照すると、ユーザU1が所望する粒度の情報「Saturday」「10:00am」が出力されていることが把握される。
 以上、情報処理システム1の機能詳細について説明した。ここで、上記した例では、要テキスト化レベル閾値Txt_thが不変であることを想定して説明を行ったが、要テキスト化レベル閾値Txt_thは更新されてもよい。例えば、ユーザU1が存在する環境に応じて音情報の聞こえにくさは変化し得ることが想定される。そこで、生成部142は、ユーザU1が存在する環境に関する情報に基づいて要テキスト化レベル閾値Txt_thを更新してもよい。
 環境に関する情報は、環境ノイズであってよい。環境ノイズの定義は様々に考えられるが、環境ノイズは、通話の相手であるU2の発話音声以外に集音された音であってもよい。ここで、環境ノイズが大きくなるほど、ユーザU1による音情報の聞き取りにくさは大きくなっていくと考えられる。そのため、生成部142は、ユーザU1が存在する環境のノイズが大きくなるほど、要テキスト化レベル閾値Txt_thが増加するように要テキスト化レベル閾値Txt_thを更新してもよい。
 例えば、ユーザU1の行動情報または生体情報に応じて音情報の聞こえにくさは変化し得ることが想定される。そこで、生成部142は、ユーザU1の行動情報または生体情報に基づいて要テキスト化レベル閾値Txt_thを更新してもよい。
 例えば、ユーザU1が、座っている場合、立ち止まっている場合、歩いている場合、走っている場合、電車に乗っている場合および自動車を運転している場合それぞれに応じて、音情報の聞こえにくさは異なり得る。そこで、生成部142は、ユーザU1の行動情報に対応する新たな要テキスト化レベル閾値Txt_thによって要テキスト化レベル閾値Txt_thを更新すればよい。
 あるいは、ユーザU1の心拍数によって音情報の聞こえにくさは変化し得る。同様に、ユーザU1の体温、発汗量、脈拍数、呼吸回数、瞬目回数、眼球運動、凝視時間、瞳孔径の大きさ、血圧、脳波、体動、体位、皮膚温度、皮膚電気抵抗、MV(マイクロバイブレーション)、筋電位、SPO(血中酸素飽和度)によって音情報の聞こえにくさは変化し得る。そこで、生成部142は、これらの生体情報に対応する新たな要テキスト化レベル閾値Txt_thによって要テキスト化レベル閾値Txt_thを更新すればよい。
 [1.4.情報処理装置の動作例]
 続いて、情報処理装置10-1の動作例について説明する。図8は、情報処理装置10-1の動作例を示すフローチャートである。図8に示したフローチャートは、情報処理装置10-1の動作の一例を示したに過ぎない。そのため、情報処理装置10-1の動作は、かかる例に限定されない。まず、ユーザU1の聴覚特性の測定が実行される(ステップS110)。かかる測定によって、取得部141によりユーザU1の聴覚特性に関する情報が取得される。なお、上記したように、聴覚特性は、測定以外の手法によって取得されてもよい。
 続いて、ユーザU1の聴覚特性に関する情報を参照して、生成部142は、要テキスト化レベル閾値Txt_thよりも聴力レベルが大きい周波数領域を要テキスト化周波数領域F_txtとして決定する(ステップS120)。なお、ステップS110およびステップS120は、ステップS100としてひとまとめにされている。ステップS100の詳細については、図9を参照しながら、後ほど説明を行う。
 続いて、生成部142は、各母音の第1フォルマントおよび第2フォルマントの周波数と要テキスト化周波数領域F_txtとを比較する(ステップS210)。そして、第1フォルマントおよび第2フォルマントの周波数の少なくともいずれか一方が要テキスト化周波数領域F_txtに入っている母音の集合を要テキスト化母音要素V_txtに設定する(S220)。なお、ステップS210およびステップS220は、ステップS200としてひとまとめにされている。ステップS200の詳細については、図10を参照しながら、後ほど説明を行う。
 続いて、生成部142は、音声認識結果を取得し(S310)、音声認識結果に対して句解析を行うことによって、音声認識結果を句単位に分割する(ステップS320)。また、生成部142は、各句に対して読み解析を行うことにより、各句の読みを取得する(ステップS330)。そして、生成部142は、各句の読みに含まれる、要テキスト化母音要素V_txtの個数を計算する(ステップS340)。
 続いて、生成部142は、要テキスト化母音要素V_txtの個数が要テキスト化母音要素個数閾値V_txt_thを超えるか否かを句ごとに判定する(ステップS350)。生成部142は、要テキスト化母音要素V_txtの個数が要テキスト化母音要素個数閾値V_txt_thを超える句があれば、その句を要テキスト化句としてアプリケーションに通知する(ステップS360)。
 一方、生成部142は、要テキスト化母音要素V_txtの個数が要テキスト化母音要素個数閾値V_txt_thを超えない句があれば、その句をテキスト化不要句としてアプリケーションに通知する(ステップS370)。なお、ステップS310~ステップS370は、ステップS300としてひとまとめにされている。ステップS300の詳細については、図11を参照しながら、後ほど説明を行う。
 図9は、要テキスト化周波数領域F_txtの決定処理の動作例を示す図である。図9に示すように、まず、生成部142は、初期値を周波数Fに設定する(ステップS111)。そして、生成部142は、ユーザU1の聴覚特性に関する情報から周波数Fにおける聴力レベルを取得する(ステップS112)。生成部142は、周波数Fにおける聴力レベルが要テキスト化レベル閾値Txt_thを超えているか否かを判定する(ステップS121)。
 続いて、生成部142は、周波数Fにおける聴力レベルが要テキスト化レベル閾値Txt_thを超えている場合(ステップS121において「Yes」)、周波数Fを要テキスト化周波数領域F_txtに追加し、ステップS123に動作を移行させる。一方、生成部142は、周波数Fにおける聴力レベルが要テキスト化レベル閾値Txt_thを超えていない場合(ステップS121において「No」)、要テキスト化周波数領域F_txtを決定して終了する(ステップS125)。その後、動作はステップS200に移行される。
 続いて、生成部142は、周波数Fが対象最大周波数F_max以内であるか否かを判定する(ステップS123)。そして、生成部142は、周波数Fが対象最大周波数F_max以内である場合には(ステップS123において「Yes」)、次の周波数を取得し(ステップS124)、動作をステップS112に移行させる)。一方、生成部124は、周波数Fが対象最大周波数F_maxの範囲内である場合には(ステップS123において「No」)、要テキスト化周波数領域F_txtを決定して、処理を終了させる(ステップS125)。その後、動作は要テキスト化母音要素V_txt_thの探索処理に移行される。
 図10は、要テキスト化母音要素V_txt_thの探索処理の動作例を示す図である。図10に示すように、まず、生成部142は、あらかじめ用意された母音リストV_listから1の母音を比較ターゲットV_targetとして取り出す(ステップS211)。そして、生成部142は、比較ターゲットV_targetの第1のフォルマント周波数および第2のフォルマント周波数を取得し(ステップS212)、比較ターゲットV_targetの第1のフォルマント周波数および第2のフォルマント周波数の少なくともいずれか一方が要テキスト化周波数領域F_txtの範囲内か否かを判定する(ステップS221)。
 生成部142は、比較ターゲットV_targetの第1のフォルマント周波数および第2のフォルマント周波数の双方が要テキスト化周波数領域F_txtの範囲外であると判定した場合には(ステップS221において「No」)ステップS223に動作を移行させる。一方、生成部142は、比較ターゲットV_targetの第1のフォルマント周波数および第2のフォルマント周波数の少なくともいずれか一方が要テキスト化周波数領域F_txtの範囲内であると判定した場合には(ステップS221において「Yes」)、比較ターゲットV_targetを要テキスト化母音要素V_txtに追加し(ステップS222)、ステップS223に動作を移行させる。
 続いて、生成部142は、母音リストV_listを全て調べたか否かを判定する(ステップS223)。生成部142は、母音リストV_listの一部または全部を調べていない場合(ステップS223において「No」)、動作をステップS211に移行させる。一方、生成部142は、母音リストV_listの全部を調べた場合(ステップSS223において「No」)、要テキスト化母音要素V_txtを確定する(ステップS224)。
 図11は、要テキスト化語句判定処理の動作例を示す図である。まず、生成部142は、発話音声に対する音声認識結果を取得する(ステップS310)。そして、生成部142は、音声認識結果を句分割し(ステップS320)、各句の読みを取得して読みリストR_listを生成する(ステップS330)。読みリストR_listから1句を取得し(ステップS341)、要テキスト化母音要素V_txtの個数が要テキスト化母音要素個数閾値V_txt_thを超えたか否かを判定する(ステップS351)。
 生成部142は、要テキスト化母音要素V_txtの個数が要テキスト化母音要素個数閾値V_txt_thを超えている場合には(ステップS351において「No」)、ステップS365に動作を移行させる。一方、生成部142は、要テキスト化母音要素V_txtの個数が要テキスト化母音要素個数閾値V_txt_thを超えていない場合には(ステップS351において「Yes」)、当該句を要テキスト化語句に追加して(ステップS360)、ステップS365に動作を移行させる。
 続いて、生成部142は、読みリストR_listのすべての項目に対して実行したか否かを判定する(ステップS365)。そして、生成部142は、読みリストR_listの一部またはすべての項目に対して実行していない場合には(ステップS365「No」)、ステップS341に動作が移行される。一方、生成部141は、読みリストR_listのすべての項目に対して実行した場合には(ステップS365「Yes」)、要テキスト化語句を確定して(ステップS370)、要テキスト化語句としてアプリケーションに通知される。
 [1.5.種々の変形例]
 続いて、情報処理装置10-1の種々の変形例について説明する。図12は、各言語により話される音声の周波数帯(パスバンド)の例を示す図である。図12には、日本語、英語、イタリア語、ドイツ語およびロシア語それぞれのパスバンドが示されている。図12からも把握されるように、パスバンドは使用される言語によって異なっている。そこで、このパスバンドに対応する聴覚レベルが取得されればよいため、聴覚に関するテストもこのパスバンドに応じた周波数領域に対して行われればよい。
 図13は、日本語における第1フォルマントおよび第2フォルマントの例を示す図である。また、図14は、英語における第1フォルマントおよび第2フォルマントの例を示す図である。図13および図14を参照すると、日本語と英語との間において、第1フォルマント周波数および第2フォルマント周波数は、さほど差が生じていないこと把握される。英語の例から把握されるように、日本語と他の外国語との間においても同様であると推測される。そこで、本実施形態は、あらゆる外国語により話された音声に対して適用し得る。
 また、上記では、あらかじめ実施されたユーザU1の聴覚に関するテスト結果に基づいてユーザU1の聴覚特性に関する情報を取得する例を説明したが、ユーザU1の聴覚特性に関する情報はどのように取得されてもよい。
 例えば、取得部141は、ユーザU1の属性情報に基づいてユーザU1の聴覚特性に関する情報を取得してもよい。属性情報は、聴覚特性に影響を与え得る所定の情報(例えば、年齢、使用する言語、性別など)であってよい。属性情報ごとに聴覚特性に関する情報があらかじめ対応付けられていれば、取得部141は、その対応付けと聴覚特性に関する情報に基づいて、ユーザU1の属性情報に対応する聴覚特性に関する情報を取得することができる。
 あるいは、取得部141は、あらかじめ登録されているユーザU1の聴覚特性に関する情報を取得してもよい。ユーザU1の聴覚特性に関する情報は、記憶部160に登録されていてもよいし、図示しないサーバなどに登録されていてもよい。また、聴覚特性に関する情報がユーザごとに登録されている場合には、ユーザごとの聴覚特性に関する情報からユーザU1の聴覚特性に関する情報が取得されてもよい。あるいは、一般的なユーザの聴覚特性に関する情報がユーザU1の聴覚特性に関する情報として取得されてもよい。
 あるいは、ユーザU1が存在する環境に応じて音情報の聞こえにくさは変化し得ることが想定されるため、取得部141は、ユーザU1が存在する環境に関する情報に基づいてユーザの聴覚特性に関する情報を取得してもよい。例えば、環境ノイズが大きくなるほど、ユーザU1による音情報の聞き取りにくさは大きくなっていくと考えられる。そのため、生成部142は、ユーザU1が存在する環境のノイズが大きくなるほど、聴覚レベルが大きく低下するように聴覚レベルを変化させてもよい。
 図15は、環境ノイズに応じて聴覚レベルを変化させる例を示す図である。図15を参照すると、通常におけるユーザU1の聴覚特性に関する情報Li1が示されている。また、環境ノイズの例として、走行中の電車の内部における騒音N_L、動物園の中における騒音N_M、食器洗浄時における騒音N_Hが示されている。ユーザU1がこれらの環境に存在する場合には、環境ノイズの主要周波数における聴力レベルが低下するとみなして、その主要周波数における聴力レベルを低下させるような聴覚レベルの変更を行うとよい。図15には、変更後の聴覚特性に関する情報Li2が示されている。
 また、環境に関する情報は、表示部180によって表示されてもよい。そうすれば、ユーザU1はユーザ2による発話音声をどの程度聞き取りづらいかを容易に把握することが可能となる。また、環境に関する情報を閲覧したユーザU1が、テキスト化を情報処理装置10-1にどの程度行わせるかを選択できるようにしてもよい。図16は、環境に関する情報の表示例を示す図である。
 図16に示すように、テキスト化を多めにすることを選択するためのボタンBu21、テキスト化の量を中程度にすることを選択するためのボタンBu22、テキスト化の量を少なめにすることを選択するためのボタンBu23が表示部180によって表示されている。また、環境に関する情報として、環境ノイズが大きいことを示す情報Bu24、環境ノイズが中程度であることを示す情報Bu25、環境ノイズが小さいことを示す情報Bu26が表示部180によって表示されている。
 あるいは、ユーザU1の行動情報に応じて音情報の聞こえにくさは変化し得ることが想定されるため、取得部141は、ユーザU1の行動情報に基づいてユーザの聴覚特性に関する情報を取得してもよい。例えば、ユーザU1が、座っている場合、立ち止まっている場合、歩いている場合、走っている場合、電車に乗っている場合および自動車を運転している場合それぞれに応じて、音情報の聞こえにくさは異なり得る。そこで、取得部141は、ユーザU1の行動情報に対応する聴覚特性に関する情報を取得すればよい。
 図17は、行動情報に応じて聴覚レベルを変化させる例を示す図である。図17を参照すると、行動認識結果の例として種々の行動情報が示されており、取得部141によって自動車を運転しているという行動情報が取得された場合を想定する。自動車を運転しているときには、音情報は通常時よりも聞き取りにくくなっていると考えられる。そこで、取得部141は、聴力レベルを低下させるような聴覚レベルの変更を行うとよい。図17には、テキスト化を積極的に行うことを示す画面Bu51が表示されている。
 このようにテキスト化がどの程度行われるかを表示することで、ユーザU1は音声認識結果のテキスト化がどの程度なされるのかを容易に把握することが可能となる。図17に示すように、ユーザU1の行動情報「運転中」は、表示部180によって表示されてもよい。そうすれば、ユーザU1はユーザ2による発話音声をどの程度聞き取りづらいかを容易に把握することが可能となる。また、行動情報を閲覧したユーザU1が、テキスト化を情報処理装置10-1にどの程度行わせるかを選択できるようにしてもよい。
 あるいは、ユーザU1の生体情報に応じて音情報の聞こえにくさは変化し得ることが想定されるため、取得部141は、ユーザU1の生体情報に基づいてユーザの聴覚特性に関する情報を取得してもよい。例えば、ユーザU1が、運動している場合および静止している場合それぞれに応じて、音情報の聞こえにくさは異なり得る。そこで、取得部141は、ユーザU1の生体情報に対応する聴覚特性に関する情報を取得すればよい。
 図18は、生体情報に応じて聴覚レベルを変化させる例を示す図である。図18を参照すると、センシング結果の例として心拍数が示されており、取得部141によって運動しているという生体情報が取得された場合を想定する。運動しているときには、音情報は通常時よりも聞き取りにくくなっていると考えられる。そこで、取得部141は、聴力レベルを低下させるような聴覚レベルの変更を行うとよい。図18には、テキスト化を積極的に行うことを示す画面Bu61が表示されている。
 このようにテキスト化がどの程度行われるかを表示することで、ユーザU1は音声認識結果のテキスト化がどの程度なされるのかを容易に把握することが可能となる。図18に示すように、ユーザU1の生体情報「運動中」は、表示部180によって表示されてもよい。そうすれば、ユーザU1はユーザ2による発話音声をどの程度聞き取りづらいかを容易に把握することが可能となる。また、行動情報を閲覧したユーザU1が、テキスト化を情報処理装置10-1にどの程度行わせるかを選択できるようにしてもよい。
 また、上記では、情報処理装置10-1と情報処理装置10-2とが有する電話機能により、ユーザU1とユーザU2とが会話を行う場面を説明したが、本開示の技術が適用される場面は、かかる場面に限定されない。例えば、本開示の技術は、ヘルスケア分野にも広く適用され得る。例えば、歯医者によって患者が歯の治療を受ける場面においては、歯の治療音のために、歯医者と患者とが互いに相手の声を聞き取れないことがある。本開示の技術は、このような歯医者による患者の歯の治療場面にも適用され得る。
 図19は、本開示の技術が歯の治療場面に適用された場合を説明するための図である。図19を参照すると、患者による発話音声の音声認識結果からテキスト化された句の例が、句Bu31、句Bu32として示されている。歯医者は、この句Bu31、句Bu32を見た結果を歯の治療に生かすことができる。また、歯医者による発話音声の音声認識結果からテキスト化された句の例が、句Bu33、句Bu34として示されている。患者はこの句Bu33、句Bu34を見た結果に対して歯医者に回答を行うことができる。
 また、上記では、出力情報として出力テキストデータを表示する場合を主に説明したが、表示される情報は、出力テキストデータに加えて画像およびスタンプなどを含んでいてもよい。例えば、出力部143は、出力テキストデータに所定の名詞が含まれていた場合に、その名詞に対応する画像またはスタンプを出力し、表示部180は、画像またはスタンプを表示してもよい。このような機能により、ユーザU1によるユーザU2の発話内容の理解速度を高めることが可能になる。
 図20は、出力テキストデータに所定の名詞が含まれていた場合について説明するための図である。図20に示すように、出力テキストデータに「BBQ(バーバキュー)」が含まれていたとする。このとき、図20に示すように、出力143は、「BBQ(バーバキュー)」に対応する画像Bu41およびスタンプBu42を出力し、表示部180は、画像Bu41およびスタンプBu42を表示してもよい。
 また、上記では、出力情報が一度だけ出力される例を主に説明したが、出力部143は、出力情報を出力した後に、所定の条件が満たされた場合に、出力情報を再度出力してもよい。ここで、所定の条件は特に限定されない。したがって、所定の条件は、ユーザU1による所定の操作がなされたという条件であってもよいし、通話が終了して所定時間経過であってもよい。所定の条件が、所定時間経過である場合を例として、説明を続ける。
 図21は、出力情報を再度出力する例を説明するための図である。図21を参照すると、通話の相手であるユーザU2の発話音声に対する音声認識結果から「10:00am」「Saturday」がテキスト化され、これらが出力テキストデータとして表示部180によって表示されている。通話が終了して所定時間が経過した後、通知画面Bu71が表示され、ユーザU1が通知画面Bu71を選択すると、「10:00am」「Saturday」それぞれを再確認することを選択するためのボタンBu72、Bu73が表示されてよい。
 図21に示すように、例えば、ユーザU1が「10:00am」を再確認することを選択するためのボタンBu73を押下すると、生成Bu142は、この「10:00am」について通話の相手であるユーザU2に再度確認するために、メールアプリケーションを自動的に起動させてもよい。そして、表示部180は、「10:00am」と発話したか否かを問うためのメッセージとそのメッセージを送信するためのボタンBu74を表示してもよい。
 また、上記では、ユーザU2によって発話された音声を受信する情報処理装置10-1において出力情報が表示される例を説明したが、かかる出力情報は、発話しているユーザU2が利用している情報処理装置10-2によって表示されてもよい。そうすれば、ユーザU2も、ユーザU1にとって聞き取りにくい音を把握し、把握した結果を再度の発話に活用したり、テキストを修正したりすることが可能である。テキストの修正結果は、ユーザU1の情報処理装置10-1に送信され、情報処理装置10-1において表示されるとよい。
 図22は、発話しているユーザU2の情報処理装置10-2による出力情報の表示例を示す図である。図22を参照すると、発話しているユーザU2の発話音声に対する音声認識結果から「10:00am」「Saturday」がテキスト化され、これらが出力テキストデータとして情報処理装置10-2における表示部180によって表示されている。また、「10:00am」「Saturday」それぞれを修正することを選択するためのボタンBu81、Bu82が表示されている。
 また、上記では、ユーザU1とユーザU2とが情報処理装置10-1と情報処理装置10-2との電話機能により、通話を行っている間に表示される出力情報について説明したが、出力情報は、電話機能による通話が終わった後に表示されてもよい。すなわち、出力情報は、ユーザU1がユーザU2と電話機能により通話した内容を後から見返すための補完的なメモとして利用されてもよい。図23は、電話機能による通話が終わった後に表示される出力情報の例を示す図である。
 また、上記では、情報処理装置10-1および情報処理装置10-2それぞれが、スマートフォンである場合を例として説明したが、情報処理装置10-1および情報処理装置10-2それぞれの形態は特に限定されない。例えば、情報処理装置10-1は、HMD(Head Mount Display)であってもよい。図24は、情報処理装置10-1がHMDである場合を示す図である。図24において、HMDによって実現された表示部180が示されている。
 また、上記では、出力情報の形態が、出力テキストデータに基づいて生成された画像情報である場合について主に説明した。しかし、出力情報の形態は、画像情報に限定されない。例えば、出力情報は、出力テキストデータに基づいて生成された、音情報、画像情報および振動情報のうち、少なくともいずれか一つを含んでもよい。図25は、出力情報が、出力テキストデータに基づいて生成された音情報を含む場合を説明するための図である。図25を参照すると、ユーザU1が音声出力部170を装着している。
 音声出力部170は、出力テキストデータに基づいて生成された音情報を出力してもよい。そうすれば、ユーザU1は、音情報によって出力テキストデータの内容を把握することが可能である。なお、ユーザU1は、ユーザU2と電話機能により会話をしながら、出力テキストデータに基づいて生成された音情報を聴くのは困難な場合もある。したがって、ユーザU2との電話機能により会話が途切れたタイミングに、かかる音情報が出力されるとよい。
 また、上記では、ユーザU1の通話の相手であるユーザU2の発話音声に対する音声認識結果をテキストデータとして利用する例を説明したが、音声認識結果の代わりに、他のテキストデータが利用されてもよい。すなわち、コンテンツに基づくテキストデータが用いられてもよい。例えば、映像データの再生により、ユーザU1が映像を閲覧しながら映像に付された音情報を聴く場面を想定する。かかる場面において、音情報の聞き取りの成功率は、ユーザの聴覚特性によって異なることが予想される。そこで、映像データに付された音情報に対する音声認識結果が用いられてもよい。
 図26は、音情報が付された映像の表示例を示す図である。図26を参照すると、映像Ctが再生されて表示されている。また、映像Ctに付された音情報も再生されて出力されている。そこで、情報処理装置10-1において、生成部142は、映像Ctに付された音情報に対して音声認識処理を施し、音声認識処理により得られた音声認識結果をテキストデータとして利用してもよい。あるいは、映像に付されたキャプションなどがテキストデータとして利用されてもよい。
 また、生成部142は、音声認識結果の粒度よりも出力テキストデータの粒度を低くしてもよい。より具体的には、生成部142は、音声認識結果から所定の語句を除外することにより音声認識結果の粒度よりも出力テキストデータの粒度を低くしてもよい。例えば、音声認識結果として「Hi John, we need to meet at the station around 10:00am」が得られた場合に、この音声認識結果が「Hi John,」「we need to meet」「at the station」「around 10:00am」に分解されたとする。
 生成部142は、このようにして得られた各句から言語ごとに定められた不要語句を取り除いてよい。例えば、英語の場合には、不要語句は、前置詞や強調表現であってもよい。例えば、「need to」や「at」「around」は前置詞であるため、これらが取り除かれた「Hi John,」「we meet」「the station」「10:00am」が表示されてもよい。これにより、より必要性の高い情報をユーザに閲覧させることが可能である。
 [1.6.ハードウェア構成例]
 次に、図27を参照して、本開示の実施形態に係る情報処理装置10のハードウェア構成について説明する。図27は、本開示の実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。
 図27に示すように、情報処理装置10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理装置10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
 ストレージ装置919は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理装置10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置10と外部接続機器929との間で各種のデータが交換され得る。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理装置10の筐体の姿勢など、情報処理装置10自体の状態に関する情報や、情報処理装置10の周辺の明るさや騒音など、情報処理装置10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 以上、情報処理装置10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
 <2.むすび>
 以上説明したように、本開示の実施形態によれば、第一のテキストデータとユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記ユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置が提供される。かかる構成によれば、ユーザが所望する粒度の情報を出力する可能性を高めることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した制御部140が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 なお、上述した情報処理システム1の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110、操作入力部115、集音部120、センサ部125、通信部150、記憶部160、音声出力部170および表示部180と制御部140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、制御部140が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110、操作入力部115、集音部120、センサ部125、通信部150、記憶部160、音声出力部170および表示部180が当該サーバにネットワークを介して接続されたクライアントに相当し得る。
 また、制御部140が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、取得部141と、生成部142と、出力部143とのうち、一部は制御部140とは異なる装置に存在していてもよい。例えば、生成部141は、取得部141と出力部143とを備える制御部140とは異なるサーバに存在していてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
 前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
 前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
 情報処理装置。
(2)
 前記生成部は、前記第一のテキストデータから前記第一のユーザの聴力レベルが低い所定の周波数領域と所定の関係を満たす1または複数のテキストデータを1または複数の抽出データとして抽出し、前記1または複数の抽出データを含むように前記第二のテキストデータを生成する、
 前記(1)に記載の情報処理装置。
(3)
 前記所定の周波数領域は、前記第一のユーザの聴力レベルが所定の聴力レベル閾値よりも低い周波数の範囲を含む、
 前記(2)に記載の情報処理装置。
(4)
 前記第一のテキストデータは、コンテンツに基づくテキストデータを含む、
 前記(1)~(3)のいずれか一項に記載の情報処理装置。
(5)
 第一のテキストデータは、第二のユーザの発話に基づき生成されるテキストデータを含む、前記(1)~(3)のいずれか一項に記載の情報処理装置。
(6)
 前記生成部は、前記第一のテキストデータを複数の分割データに分割し、対応する1または複数の周波数のうちの少なくとも一つが前記周波数領域に属する母音要素の個数を前記1または複数の分割データそれぞれについて算出し、前記複数の分割データのうち、算出した前記個数が所定の個数閾値を超える1または複数の分割データを前記1または複数の抽出データとして抽出する、
 前記(2)または(3)に記載の情報処理装置。
(7)
 前記情報処理装置は、前記第一のユーザの聴覚特性に関する情報を取得する取得部を備える、
 前記(1)~(6)のいずれか一項に記載の情報処理装置。
(8)
 前記取得部は、前記第一のユーザの属性情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
 前記(7)に記載の情報処理装置。
(9)
 前記取得部は、あらかじめ登録されている前記第一のユーザの聴覚特性に関する情報を取得する、
 前記(7)に記載の情報処理装置。
(10)
 前記取得部は、前記第一のユーザが存在する環境に関する情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
 前記(7)に記載の情報処理装置。
(11)
 前記取得部は、前記第一のユーザの行動情報または生体情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
 前記(7)に記載の情報処理装置。
(12)
 前記情報処理装置は、前記所定の聴力レベル閾値を取得する取得部を備える、
 前記(3)に記載の情報処理装置。
(13)
 前記生成部は、前記第一のユーザが存在する環境に関する情報に基づいて前記所定の聴力レベル閾値を更新する、
 前記(12)に記載の情報処理装置。
(14)
 前記生成部は、前記第一のユーザの行動情報または生体情報に基づいて前記所定の聴力レベル閾値を更新する、
 前記(12)に記載の情報処理装置。
(15)
 前記出力部は、前記出力情報を出力した後に、所定の条件が満たされた場合に、前記出力情報を再度出力する、
 前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記出力情報は、前記第二のテキストデータに基づいて生成された、音情報、画像情報および振動情報のうち、少なくともいずれか一つを含む、
 前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記生成部は、前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
 前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記生成部は、前記第一のテキストデータから所定の語句を除外することにより前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
 前記(17)に記載の情報処理装置。
(19)
 第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成することと、
 前記第二のテキストデータに関する出力情報を出力することと、を含み、
 プロセッサにより、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御することを含む、
 情報処理方法。
(20)
 コンピュータを、
 第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
 前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
 前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
 情報処理装置として機能させるためのプログラム。
 1   情報処理システム
 10  情報処理装置
 110 画像入力部
 115 操作入力部
 120 集音部
 125 センサ部
 140 制御部
 141 取得部
 142 生成部
 143 出力部
 150 通信部
 160 記憶部
 170 音声出力部
 180 表示部

Claims (20)

  1.  第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
     前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
     前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
     情報処理装置。
  2.  前記生成部は、前記第一のテキストデータから前記第一のユーザの聴力レベルが低い所定の周波数領域と所定の関係を満たす1または複数のテキストデータを1または複数の抽出データとして抽出し、前記1または複数の抽出データを含むように前記第二のテキストデータを生成する、
     請求項1に記載の情報処理装置。
  3.  前記所定の周波数領域は、前記第一のユーザの聴力レベルが所定の聴力レベル閾値よりも低い周波数の範囲を含む、
     請求項2に記載の情報処理装置。
  4.  前記第一のテキストデータは、コンテンツに基づくテキストデータを含む、
     請求項1に記載の情報処理装置。
  5.  第一のテキストデータは、第二のユーザの発話に基づき生成されるテキストデータを含む、
     請求項1に記載の情報処理装置。
  6.  前記生成部は、前記第一のテキストデータを複数の分割データに分割し、対応する1または複数の周波数のうちの少なくとも一つが前記周波数領域に属する母音要素の個数を前記1または複数の分割データそれぞれについて算出し、前記複数の分割データのうち、算出した前記個数が所定の個数閾値を超える1または複数の分割データを前記1または複数の抽出データとして抽出する、
     請求項2に記載の情報処理装置。
  7.  前記情報処理装置は、前記第一のユーザの聴覚特性に関する情報を取得する取得部を備える、
     請求項1に記載の情報処理装置。
  8.  前記取得部は、前記第一のユーザの属性情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
     請求項7に記載の情報処理装置。
  9.  前記取得部は、あらかじめ登録されている前記第一のユーザの聴覚特性に関する情報を取得する、
     請求項7に記載の情報処理装置。
  10.  前記取得部は、前記第一のユーザが存在する環境に関する情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
     請求項7に記載の情報処理装置。
  11.  前記取得部は、前記第一のユーザの行動情報または生体情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
     請求項7に記載の情報処理装置。
  12.  前記情報処理装置は、前記所定の聴力レベル閾値を取得する取得部を備える、
     請求項3に記載の情報処理装置。
  13.  前記生成部は、前記第一のユーザが存在する環境に関する情報に基づいて前記所定の聴力レベル閾値を更新する、
     請求項12に記載の情報処理装置。
  14.  前記生成部は、前記第一のユーザの行動情報または生体情報に基づいて前記所定の聴力レベル閾値を更新する、
     請求項12に記載の情報処理装置。
  15.  前記出力部は、前記出力情報を出力した後に、所定の条件が満たされた場合に、前記出力情報を再度出力する、
     請求項1に記載の情報処理装置。
  16.  前記出力情報は、前記第二のテキストデータに基づいて生成された、音情報、画像情報および振動情報のうち、少なくともいずれか一つを含む、
     請求項1に記載の情報処理装置。
  17.  前記生成部は、前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
     請求項1に記載の情報処理装置。
  18.  前記生成部は、前記第一のテキストデータから所定の語句を除外することにより前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
     請求項17に記載の情報処理装置。
  19.  第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成することと、
     前記第二のテキストデータに関する出力情報を出力することと、を含み、
     プロセッサにより、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御することを含む、
     情報処理方法。
  20.  コンピュータを、
     第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
     前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
     前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
     情報処理装置として機能させるためのプログラム。
PCT/JP2016/065192 2015-08-20 2016-05-23 情報処理装置、情報処理方法およびプログラム WO2017029850A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP16836842.1A EP3340240B1 (en) 2015-08-20 2016-05-23 Information processing device, information processing method, and program
US15/736,509 US10643636B2 (en) 2015-08-20 2016-05-23 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015162620 2015-08-20
JP2015-162620 2015-08-20

Publications (1)

Publication Number Publication Date
WO2017029850A1 true WO2017029850A1 (ja) 2017-02-23

Family

ID=58051587

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/065192 WO2017029850A1 (ja) 2015-08-20 2016-05-23 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US10643636B2 (ja)
EP (1) EP3340240B1 (ja)
WO (1) WO2017029850A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6849054B2 (ja) * 2017-03-17 2021-03-24 ヤマハ株式会社 会話装置、音声処理システム、音声処理方法、および音声処理プログラム
US20220293010A1 (en) * 2019-01-15 2022-09-15 Sony Group Corporation Information processing apparatus and information processing method
US11087778B2 (en) * 2019-02-15 2021-08-10 Qualcomm Incorporated Speech-to-text conversion based on quality metric

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020095292A1 (en) * 2001-01-18 2002-07-18 Mittal Parul A. Personalized system for providing improved understandability of received speech
JP2013034057A (ja) * 2011-08-01 2013-02-14 Nec Casio Mobile Communications Ltd 電子機器、音響再生方法、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
ATE218002T1 (de) * 1994-12-08 2002-06-15 Univ California Verfahren und vorrichtung zur verbesserung des sprachverständnisses bei sprachbehinderten personen
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
GB0304630D0 (en) * 2003-02-28 2003-04-02 Dublin Inst Of Technology The A voice playback system
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
US9547642B2 (en) * 2009-06-17 2017-01-17 Empire Technology Development Llc Voice to text to voice processing
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
JP6446993B2 (ja) * 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム
KR102341144B1 (ko) * 2015-06-01 2021-12-21 삼성전자주식회사 메시지를 출력하는 전자 장치 및 그 제어 방법
US20170243582A1 (en) * 2016-02-19 2017-08-24 Microsoft Technology Licensing, Llc Hearing assistance with automated speech transcription
US9972301B2 (en) * 2016-10-18 2018-05-15 Mastercard International Incorporated Systems and methods for correcting text-to-speech pronunciation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020095292A1 (en) * 2001-01-18 2002-07-18 Mittal Parul A. Personalized system for providing improved understandability of received speech
JP2013034057A (ja) * 2011-08-01 2013-02-14 Nec Casio Mobile Communications Ltd 電子機器、音響再生方法、及びプログラム

Also Published As

Publication number Publication date
EP3340240B1 (en) 2021-04-14
US10643636B2 (en) 2020-05-05
EP3340240A4 (en) 2019-04-03
US20180197564A1 (en) 2018-07-12
EP3340240A1 (en) 2018-06-27

Similar Documents

Publication Publication Date Title
JP4439740B2 (ja) 音声変換装置及び方法
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6760271B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11636859B2 (en) Transcription summary presentation
JP6396535B2 (ja) 聴力補助装置に関するパラメータ値を自動的に決定するための方法
JP3670180B2 (ja) 補聴器
JP2016194612A (ja) 視覚認識支援装置および視覚認識支援プログラム
CN114115515A (zh) 用于帮助用户的方法和头戴式单元
CN115620728B (zh) 音频处理方法、装置、存储介质及智能眼镜
WO2017029850A1 (ja) 情報処理装置、情報処理方法およびプログラム
Micheyl et al. Comparing models of the combined-stimulation advantage for speech recognition
JP2002244842A (ja) 音声通訳システム及び音声通訳プログラム
CN114432565A (zh) 空想意识信息恢复系统
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2018198447A1 (ja) 情報処理装置および情報処理方法
WO2019198299A1 (ja) 情報処理装置及び情報処理方法
JP4772315B2 (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Sarosa et al. Design and Implementation of Voice Time, Time Indicator Application for Diabetic Retinopathy Patients.
JP7487668B2 (ja) 情報処理装置及び情報処理方法
Shehieb et al. Intelligent Hearing System using Assistive Technology for Hearing-Impaired Patients
US11657814B2 (en) Techniques for dynamic auditory phrase completion
JP7316971B2 (ja) 会議支援システム、会議支援方法、およびプログラム
JP2017219829A (ja) 近時記憶支援装置及び近時記憶支援プログラム
US20240119930A1 (en) Artificial intelligence device and operating method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16836842

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016836842

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: JP