WO2017221501A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2017221501A1
WO2017221501A1 PCT/JP2017/012692 JP2017012692W WO2017221501A1 WO 2017221501 A1 WO2017221501 A1 WO 2017221501A1 JP 2017012692 W JP2017012692 W JP 2017012692W WO 2017221501 A1 WO2017221501 A1 WO 2017221501A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
information processing
sound
voice
output
Prior art date
Application number
PCT/JP2017/012692
Other languages
English (en)
French (fr)
Inventor
佑輔 中川
真一 河野
祐平 滝
亜由美 加藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2018523333A priority Critical patent/JP6897678B2/ja
Priority to CN201780037490.4A priority patent/CN109313895A/zh
Priority to US16/091,286 priority patent/US10657956B2/en
Priority to EP17814973.8A priority patent/EP3477634B1/en
Publication of WO2017221501A1 publication Critical patent/WO2017221501A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Definitions

  • the present disclosure relates to an information processing apparatus and an information processing method.
  • Patent Document 1 discloses an example of a mechanism using so-called voice recognition technology.
  • the speech recognition technology and the natural language processing technology as described above, for example, it is possible to convert the speech input by the user into so-called character information and present it.
  • the character information in which the voice is converted in this way can be applied as an input to various controls by recognizing the meaning content of the character information, for example.
  • a user interface capable of using voice as an input can be applied to an information processing apparatus such as a wearable terminal in which a so-called input interface is limited, and its usage is diverse. Under such circumstances, particularly in recent years, it has been desired to improve the operability of the user interface using voice as an input.
  • the present disclosure proposes an information processing apparatus and an information processing method that can further improve the operability of the user interface using voice as an input.
  • an acquisition unit that acquires context information in a period related to voice collection, and output information related to the voice collection in a predetermined output unit in a mode according to the acquired context information.
  • an information processing apparatus including a control unit for outputting.
  • a transmission unit that transmits context information in a period related to sound collection acquired by a predetermined acquisition unit to an external device, and an output related to the sound collection of the sound transmitted from the external device
  • An information processing apparatus includes an output unit that presents information in a manner corresponding to the context information.
  • the computer system obtains context information in a period related to sound collection, and outputs information related to the sound collection in a manner corresponding to the acquired context information.
  • an information processing method including outputting to a predetermined output unit.
  • the computer system transmits context information in a period related to sound collection acquired by a predetermined acquisition unit to an external device, and collects the sound collected from the external device. Presenting related output information in a manner corresponding to the context information is provided.
  • the acquisition unit that acquires the detection result of the sound included in the collected sound, and the detection result of the sound before presenting the information based on at least the result of the sound recognition process for the sound
  • a control unit that causes a predetermined output unit to notify the notification information.
  • An information processing apparatus includes an output unit that notifies notification information based on control according to a detection result of sound included in the sound before presenting information based on the information.
  • the computer system acquires the detection result of the sound included in the collected sound, and at least before presenting the information based on the result of the sound recognition process for the sound.
  • An information processing method is provided that includes causing a predetermined output unit to notify notification information based on the detection result.
  • the computer system transmits the sound collection result of the sound by the predetermined sound collection unit to the external device, and is transmitted from at least the external device based on the sound detection result included in the sound.
  • An information processing method is provided that includes informing notification information before presenting information based on a result of speech recognition processing on the speech.
  • FIG. 2 is an explanatory diagram for describing an example of a schematic system configuration of an information processing system according to an embodiment of the present disclosure.
  • FIG. It is a block diagram showing an example of functional composition of an information processing system concerning one embodiment of this indication. It is an explanatory view for explaining an outline of an information processing system concerning a 1st embodiment of this indication. It is explanatory drawing for demonstrating the outline
  • FIG. 10 is an explanatory diagram for explaining an overview of an information processing system according to Modification 1-2.
  • FIG. 10 is an explanatory diagram for describing an overview of an information processing system according to a modified example 2-1.
  • FIG. 10 is an explanatory diagram for describing an overview of an information processing system according to a modified example 2-1.
  • FIG. 10 is an explanatory diagram for explaining an overview of an information processing system according to a modification 2-2. It is an explanatory view for explaining an outline of an information processing system concerning a 3rd embodiment of this indication. It is the flowchart which showed an example of the flow of a series of processes of the information processing system which concerns on the embodiment. It is explanatory drawing for demonstrating the outline
  • FIG. 14 is an explanatory diagram for describing an example of a UI provided by an information processing system according to Modification 3-2.
  • FIG. 14 is an explanatory diagram for explaining another example of a UI provided by an information processing system according to Modification 3-2. It is a functional block diagram showing an example of hardware constitutions of an information processor which constitutes an information processing system concerning one embodiment of this indication.
  • FIG. 1 is an explanatory diagram for explaining an example of a schematic system configuration of the information processing system according to the present embodiment.
  • the information processing system includes an information processing device 10 and an input / output device 30.
  • the information processing apparatus 10 and the input / output apparatus 30 are configured to be able to transmit and receive information to and from each other via a predetermined network N1.
  • the type of the network N1 is not particularly limited.
  • the network N1 may be configured by a so-called wireless network such as a network based on the Wi-Fi (registered trademark) standard.
  • the network N1 may be configured by the Internet, a dedicated line, a LAN (Local Area Network), a WAN (Wide Area Network), or the like.
  • the network N1 may include a plurality of networks, and a part of the network N1 may be configured as a wired network.
  • the input / output device 30 is configured to acquire various input information and present various output information to the user Ua holding the input / output device 30.
  • the input / output device 30 includes a sound collection unit such as a so-called microphone, and is configured to collect the sound of the user Ua.
  • the input / output device 30 may transmit the sound (sound) collected by the sound collection unit to the information processing device 10 via the network N1.
  • the input / output device 30 includes various output units such as a display unit such as a so-called liquid crystal display or an organic EL display, and an acoustic output unit such as a so-called speaker, and can output information via the output unit. It may be configured.
  • the input / output device 30 acquires output information indicating the result of the process using the sound transmitted to the information processing device 10 as an input from the information processing device 10 via the network N1, and outputs the output information.
  • the output information acquired via the unit may be presented to the user Ua.
  • the input / output device 30 acquires the character information obtained by converting the sound from the information processing device 10 and displays the acquired character information on the display unit, whereby the character information is displayed on the user Ua. May be presented in a visible manner.
  • the input / output device 30 converts character information acquired from the information processing device 10 into speech based on a technique such as TTS (Text to speech), and outputs the converted speech to an acoustic output unit. By doing so, the sound (that is, the sound in which the character information is converted) may be presented to the user Ua so as to be audible.
  • TTS Text to speech
  • the input / output device 30 may be configured to be able to acquire context information that directly or indirectly indicates various states and situations.
  • the input / output device 30 may transmit the acquired context information to the information processing device 10.
  • the information processing apparatus 10 can recognize the state and situation based on the context information acquired from the input / output device 30.
  • the context information includes, for example, information indicating the state of the external environment of the input / output device 30 (and thus the external environment of the user Ua).
  • the input / output device 30 obtains a sound collection result of ambient noise from a sound collection unit that collects sound of the external environment, so that the influence of the noise (for example, noise volume, Information indicating a signal-to-noise ratio (SNR: (signal-to-noise ratio) or the like) may be acquired as context information.
  • SNR signal-to-noise ratio
  • Context information includes information on the state of the user (speaker) at the time of utterance and the situation where the user is placed. For example, in a situation where the user is communicating with another user via the input / output device 30, information regarding the communication partner (for example, information indicating a relationship with the speaker) is acquired as context information. May be. In this case, for example, the input / output device 30 may specify information related to a communication partner based on information of an external device that has established communication.
  • information regarding the input status of information to various input devices may be acquired as context information.
  • the state of the user who operates the input device and the situation where the user is placed can be estimated from the frequency of operations on the input device such as a keyboard and a controller.
  • information indicating the state of the input / output device 30 may be acquired.
  • information on an application being executed by the input / output device 30 is given. From such context information, for example, the state of the user who operates the input / output device 30 and the situation where the user is placed can be estimated.
  • the input / output device 30 may acquire the detection result of the biological information such as the user's body temperature, breathing, heartbeat, and sweating amount by the detection unit such as various sensors as context information indicating the state of the user.
  • the detection unit such as various sensors as context information indicating the state of the user.
  • context information information related to the utterance mode, such as speech utterance speed and volume, may be acquired.
  • the input / output device 30 may recognize an utterance speed, a volume, and the like based on a sound collection result. Further, based on the sound quality of the collected sound, information indicating the attribute (for example, gender and age) of the user who uttered the sound (that is, information indicating who is speaking) is acquired as context information. It is also possible.
  • information on the length of the voice utterance and information on the length of the character information converted from the voice that is, the length of the character string uttered by the user
  • information regarding the state of input information in other words, the information input state
  • information indicating various states and situations may be acquired not only for voice but also for other input information.
  • information indicating an input speed of information with respect to an input device such as a keyboard or a controller, or information indicating an input strength (for example, pressure) may be acquired as context information.
  • the input / output device 30 may acquire the sound collection result as context information for indirectly acquiring information indicating the various states and situations described above.
  • the timing at which the input / output device 30 acquires the context information is not particularly limited.
  • the input / output device 30 may acquire the context information when the user speaks (in other words, when collecting voice).
  • the input / output device 30 starts collecting a voice uttered by a user based on a predetermined operation, such as so-called PTT (Push to Talk)
  • PTT Push to Talk
  • the input / output device 30 is based on detection of the operation.
  • You may acquire context information.
  • the input / output device 30 can acquire context information regarding various states and situations at the timing when the user starts speaking (that is, the timing when voice collection is started).
  • the input / output device 30 may sequentially acquire the context information during a period in which the user's utterance is detected (that is, during a period in which sound collection is continued).
  • the input / output device 30 may acquire context information regarding the state or situation immediately before the start of the speaking.
  • the context information indicating the operation status of the user to another input device in the period immediately before the user starts speaking the state of the user at the time of speaking and the situation where the user is placed It is also possible to guess.
  • the input / output device 30 sequentially monitors a predetermined state and situation, and triggers detection of a predetermined event (for example, start of utterance by the user) before and after the detection timing of the event. Based on the monitoring result in the period, context information in the period may be acquired.
  • the input / output device 30 when the input / output device 30 detects the start of a user's utterance, the input / output device 30 stores information on various states and situations in a period of several seconds (for example, about 10 seconds) before and after the start of the utterance. It can be acquired as context information regarding the utterance period.
  • peripheral related to sound collection when it is described as “period related to sound collection”, it is possible to include not only the period of collecting the sound but also the period immediately before the sound collection of the sound. .
  • period related to utterance when “period related to utterance” is described, it is possible to include not only the speech utterance period but also a period immediately before the speech is uttered.
  • context information can be acquired in a period of about 10 seconds before and after the start of voice collection, it is possible to estimate the state of the user who spoke the voice and the situation where the user is placed. It is. Of course, it goes without saying that the period for which context information is acquired may be changed according to the use case.
  • the information processing apparatus 10 acquires a sound (sound) sound collection result from the input / output device 30 and executes various processes using the acquired sound as input information. Specifically, when the information processing apparatus 10 acquires the sound collection result of the sound from the input / output device 30, the information processing apparatus 10 may detect the sound included in the sound, or from the sound based on the detection result. Audio may be extracted. Further, the information processing apparatus 10 may convert the voice into character information by performing voice recognition processing (so-called acoustic analysis) on the acquired voice.
  • voice recognition processing so-called acoustic analysis
  • the information processing apparatus 10 converts character information obtained by converting speech into character information (for example, meaning content) based on natural language processing (so-called language analysis) such as morphological analysis, syntax analysis, and semantic analysis. , Kanji kana mixed text, etc.). Further, the information processing apparatus 10 may execute the function instructed by the voice by recognizing the meaning content of the character information converted from the voice.
  • language analysis such as morphological analysis, syntax analysis, and semantic analysis. , Kanji kana mixed text, etc.
  • the information processing apparatus 10 may transmit the execution results of various processes using the voice collection result as input information to the input / output device 30 via the network N1.
  • the information processing apparatus 10 may notify the input / output device 30 of the detection result when detecting sound from the sound collection result.
  • the information processing apparatus 10 may transmit character information obtained by converting the voice to the input / output device 30 based on the result of voice recognition processing or natural language processing on the voice collection result.
  • the information processing apparatus 10 may control the operation of the input / output device 30 to cause the input / output device 30 to output the character information obtained by converting the voice through a predetermined output unit.
  • the information processing device 10 may acquire the above-described context information from the input / output device 30.
  • the information processing apparatus 10 can recognize various states and situations such as the state of the environment around the input / output device 30 and the state of the user holding the input / output device 30.
  • the information processing apparatus 10 may control various processes according to recognition results of various states and situations.
  • the information processing apparatus 10 may control the presentation mode of the character information obtained by converting the sound according to the acquired context information (that is, according to the state or situation indicated by the context information). Good.
  • the system configuration described above is merely an example, and is not necessarily limited to the example illustrated in FIG.
  • the information processing apparatus 10 may be configured by a plurality of apparatuses (for example, servers) that cooperate with each other.
  • the information processing device 10 and the input / output device 30 may be configured integrally.
  • FIG. 2 is a block diagram illustrating an example of a functional configuration of the information processing system according to an embodiment of the present disclosure.
  • the functional configurations of the information processing apparatus 10 and the input / output apparatus 30 are described by focusing on the common parts in the information processing systems according to the embodiments described below, and are specific to each embodiment. The configuration and operation will be described later separately.
  • the communication unit may include a baseband (BB) processor, an RF circuit, and the like.
  • BB baseband
  • the communication is performed even when there is no particular description. It is assumed that information is transmitted / received via the unit.
  • the input / output device 30 includes an input unit 310 and an output unit 330.
  • the input unit 310 includes, for example, a sound collection unit 311 and a detection unit 313. Further, the input unit 310 may include an operation unit 315.
  • the output unit 330 includes a display unit 331, for example.
  • the output unit 330 may include an acoustic output unit 333.
  • the sound collection unit 311 is configured by a sound collection device such as a so-called microphone, and collects sound such as a user's voice. An acoustic signal based on the sound collection result of the sound collected by the sound collection unit 311 is transmitted to the information processing apparatus 10 via a network, for example.
  • the detection unit 313 is a configuration for acquiring context information indicating various states and situations.
  • the detection unit 313 may include various sensors, and information indicating the state of the surrounding environment may be acquired as context information by the sensors.
  • the detection unit 313 may include a sound collection unit that collects sound of the external environment, and may acquire a sound collection result by the sound collection unit as context information indicating the influence of noise.
  • the detection unit 313 may acquire context information from various devices provided outside the input / output device 30.
  • the detection unit 313 may acquire context information indicating the user's biological information from various sensors installed on the user's body. Note that the context information acquired by the detection unit 313 is transmitted to the information processing apparatus 10 via a network, for example.
  • the operation unit 315 is configured to accept an input operation from a user, and includes, for example, an input device such as a button, a touch panel, or a so-called pointing device. For example, some of the display information presented through the display unit 331 described later may be selected based on an operation through the operation unit 315. That is, the input / output device 30 may recognize an operation target (that is, a selection target) based on the content of the input operation from the user to the operation unit 315. Also, an operation for starting sound collection, such as so-called PTT, may be performed via the operation unit 315.
  • an input device such as a button, a touch panel, or a so-called pointing device.
  • some of the display information presented through the display unit 331 described later may be selected based on an operation through the operation unit 315. That is, the input / output device 30 may recognize an operation target (that is, a selection target) based on the content of the input operation from the user to the operation unit 315.
  • the display unit 331 includes a display device such as a so-called liquid crystal display or an organic EL display, and presents information to the user by displaying various display information. For example, the display unit 331 displays the output information transmitted from the information processing apparatus 10 as display information, thereby presenting the output information to the user. At this time, the display unit 331 may display the output information transmitted from the information processing apparatus 10 as display information in a mode specified by the information processing apparatus 10.
  • the sound output unit 333 is configured by an acoustic device such as a so-called speaker, and presents information to the user by outputting sound such as voice.
  • the display unit 331 presents the output information to the user by outputting output information configured as voice or sound transmitted from the information processing apparatus 10.
  • the sound output unit 333 outputs the sound in which the output information configured as the character information transmitted from the information processing apparatus 10 is converted based on a technique such as TTS (Text to speech), so that the output information is output. It may be presented to the user as audio.
  • TTS Text to speech
  • the information processing apparatus 10 includes an acoustic analysis unit 101, a language analysis unit 107, a context analysis unit 109, and an output control unit 111.
  • the context analysis unit 109 acquires context information from the input / output device 30, and recognizes various states and situations by analyzing the acquired context information.
  • the context analysis unit 109 may acquire the sound collection result of the sound in the environment around the input / output device 30 as context information.
  • the context analysis unit 109 may recognize the magnitude of the influence of noise (for example, the volume of noise) in the sound collection environment based on the sound collection result.
  • the noise level when the noise level is 60 dB or more, it tends to be felt noisy.
  • the volume of “normal conversation”, “chimes”, and “inside a car running at 40 km / h” corresponds to about 60 dB.
  • the noise level when the noise level is 80 dB or more, it tends to be felt very noisy.
  • the volume of “inside the subway car (when the window is opened)” and “piano sound” correspond to about 80 dB. Therefore, for example, when the volume of noise is 60 dB or more, the context analysis unit 109 may recognize that the influence of noise is large (that is, a noisy environment).
  • the context analysis unit 109 may acquire an acoustic signal based on a sound collection result of speech uttered by the user as context information.
  • the context analysis unit 109 may recognize the speech speed, the sound volume, the sound quality, and the like based on the result of the sound analysis (for example, sound recognition processing) for the sound signal.
  • the context analysis unit 109 may estimate other states and situations based on recognition results such as speech rate, sound volume, and sound quality. As a specific example, it is also possible to estimate the age, sex, etc. of the uttered user from the sound quality of the voice.
  • the context analysis unit 109 may acquire the result of the acoustic analysis for the acoustic signal from the acoustic analysis unit 101.
  • the context analysis unit 109 may acquire the result of acoustic analysis or language analysis on the acoustic signal based on the sound collection result of the speech uttered by the user as context information.
  • the context analysis unit 109 determines the length of the voice spoken by the user or the length of the character string spoken by the user (that is, the voice is based on the result of acoustic analysis or language analysis on the acoustic signal. The length of the converted character information) may be recognized.
  • the context analysis unit 109 can recognize or estimate other states and situations other than the example described above according to the acquired context information.
  • the context analysis unit 109 recognizes various states and situations based on the acquired context information, and outputs information indicating the recognition result to the output control unit 111. Further, the context analysis unit 109 may output information indicating recognition results of various states and situations to the acoustic analysis unit 101 and the language analysis unit 107.
  • the acoustic analysis unit 101 acquires an acoustic signal based on the sound collection result of the sound by the input unit 310 (sound collection unit 311) of the input / output device 30, and performs an acoustic analysis process on the acquired acoustic signal, A process related to extraction of voice included in the acoustic signal and recognition of the voice is executed.
  • the acoustic analysis unit 101 includes, for example, a voice detection unit 103 and a voice recognition processing unit 105.
  • the voice detection unit 103 is a configuration for extracting voice from the acquired acoustic signal.
  • the voice detection unit 103 extracts a voice signal included in the acoustic signal based on a technique such as VAD (Voice Activity Detection). Then, the voice detection unit 103 outputs a voice signal extracted from the acoustic signal to the voice recognition processing unit 105.
  • the voice detection unit 103 may notify the output control unit 111 of information indicating the detection result.
  • the voice recognition processing unit 105 performs so-called voice recognition processing on the voice signal extracted from the acoustic signal by the voice detection unit 103, thereby converting the voice signal into character information indicating the pronunciation of the voice.
  • the speech recognition processing unit 105 converts a speech signal based on a Japanese speech collection result into hiragana or katakana character information indicating the utterance content. Then, the speech recognition processing unit 105 outputs information indicating the result of the speech recognition processing (for example, character information indicating the pronunciation of speech) to the language analysis unit 107. Further, the voice recognition processing unit 105 may output information indicating the result of the voice recognition processing to the output control unit 111.
  • the voice recognition processing unit 105 acquires information indicating recognition results of various states and situations from the context analysis unit 109, and controls the above-described voice recognition processing according to the states and situations indicated by the acquired information. Good. As a specific example, the voice recognition processing unit 105 may control a range of a voice signal that is a target of the voice recognition process according to a state or situation indicated by the acquired information. In addition, the voice recognition processing unit 105 performs voice recognition processing on the voice based on the acoustic characteristics of the voice (hereinafter also referred to as “acoustic model”) according to the state or situation indicated by the acquired information. You may control the search range (for example, the pattern to refer, the conditions to apply, etc.) at the time of performing. Details of the control will be described later.
  • acoustic model acoustic characteristics of the voice
  • the language analysis unit 107 acquires the result of the speech recognition processing from the speech recognition processing unit 105, and performs so-called language analysis processing (natural language processing) on the character information obtained as a result of the speech recognition processing.
  • the character information is converted into character information in consideration of the semantic content.
  • the language analysis unit 107 performs morpheme analysis and syntax analysis on the acquired character information, thereby dividing the character information into morphemes, and the relationship (for example, modification) between the separated morphemes Recognizing relationships). Further, the language analysis unit 107 recognizes the semantic content indicated by the acquired character information (for example, text) by performing semantic analysis based on dictionary data or the like on the result of morphological analysis or syntax analysis, for example. Then, the character information is converted into character information (for example, kanji / kana mixed text in Japanese) in consideration of the semantic content.
  • the language analysis unit 107 acquires information indicating recognition results of various states and situations from the context analysis unit 109, and controls the above-described language analysis processing according to the states and situations indicated by the acquired information. Also good. As a specific example, the language analysis unit 107 may control the search range of character information to be processed in the language analysis process according to the state or situation indicated by the acquired information. In addition, the language analysis unit 107 responds to the result of the speech recognition processing on the speech based on the linguistic characteristics of the speech (hereinafter, also referred to as “language model”) according to the state or situation indicated by the acquired information. Thus, a search range (for example, a pattern to be referred to and a condition to be applied) when performing the language analysis processing may be controlled. Details of the control will be described later.
  • a search range for example, a pattern to be referred to and a condition to be applied
  • the language analysis unit 107 outputs information indicating the result of the language analysis processing (for example, information indicating the conversion result from the character information indicating the pronunciation of the speech to the character information considering the semantic content) to the output control unit 111. To do.
  • the output control unit 111 acquires, as information indicating the result of the language analysis process, for example, character information obtained by converting the speech in consideration of the semantic content. At this time, the output control unit 111 may cause the input / output device 30 to present the acquired character information. As a result, the user holding the input / output device 30 can confirm the recognition result of the voice spoken by the user via the output unit 330 (for example, the display unit 331) of the input / output device 30.
  • the output control unit 111 acquires information indicating recognition results of various states and situations based on the acquired context information from the context analysis unit 109, and the speech to be presented is converted according to the recognition results.
  • the mode of the character information may be controlled.
  • the output control unit 111 presents at least a part of the word information to be presented as character information indicating the pronunciation of the word according to the state or situation indicated by the acquired information. You may control so that. Details of this control will be described later separately.
  • the output control unit 111 when the output control unit 111 causes the input / output device 30 to present the character information in which the voice is converted, the output control unit 111 depends on the state of acoustic analysis or language analysis until the collected voice is converted into character information. Various information may be presented to the input / output device 30 step by step. As a specific example, the output control unit 111 receives a notification indicating the detection result of the sound included in the acoustic signal from the acoustic analysis unit 101, and outputs the notification information according to the timing at which the notification is received. 30 may be presented.
  • the output control unit 111 acquires information indicating the result of the speech recognition processing for the speech signal extracted from the acoustic signal from the acoustic analysis unit 101, and the speech recognition processing according to the timing at which the information is acquired. Output information based on the result may be presented to the input / output device 30. Next, the output control unit 111 acquires information indicating the result of the language analysis process for the result of the speech recognition process from the language analysis unit 107, and displays the result of the language analysis process according to the timing at which the information is acquired. The output information based on the input / output device 30 may be presented. Details of this control will be described later separately.
  • the functional configuration of the information processing system illustrated in FIG. 2 is merely an example, and the functional configuration of the information processing system is not limited to the example illustrated in FIG. 2 as long as the functions of each configuration described above can be realized. It is not limited to.
  • a part of the configuration of the information processing apparatus 10 may be provided outside the information processing apparatus 10.
  • a configuration corresponding to the output control unit 111 may be provided on the input / output device 30 side.
  • the input / output device 30 detects the sound included in the acoustic signal, the result of the speech recognition process for the sound, the result of the language analysis process for the result of the speech recognition process, and various states based on the context information. What is necessary is just to acquire the information etc.
  • FIG. 1 which show the recognition result of a situation from the information processing apparatus 10.
  • FIG. 1 at least some of the components included in the input unit 310 and the output unit 330 may be provided outside the input / output device 30. Further, as described above, the input / output device 30 and the information processing device 10 may be configured integrally.
  • the accuracy of speech recognition processing and natural language processing is not always high, and it may be assumed that speech is erroneously recognized.
  • a system for recognizing a voice uttered by a user uses a voice recognition process or a natural language in order to improve a response speed (that is, a processing speed) to the spoken voice.
  • the search range of processing may be limited. However, if the search range of the speech recognition processing or natural language processing is limited, the accuracy of the speech recognition processing or natural language processing (that is, the accuracy of processing related to speech recognition) decreases, and consequently speech recognition fails. It can also be envisaged.
  • the characteristics required for the system may differ. For example, in a certain scene, a faster response (ie, response speed) may be required for an utterance. In other scenes, recognition accuracy higher than the response speed may be required.
  • the information processing system provides a presentation mode of character information in which voice is converted according to various states and situations (in other words, context information) related to voice collection. Control.
  • the information processing system determines which of the response speed and the recognition accuracy should be emphasized according to the context information acquired during the period related to voice collection, and determines the determination result.
  • the collected voice is converted into character information and the character information is presented.
  • FIG. 3 and FIG. 4 are explanatory diagrams for explaining the outline of the information processing system according to the present embodiment, and the result of voice recognition from the system when the user inputs information by voice while playing the game. An example of feedback is shown.
  • FIG. 3 shows an example of feedback of a speech recognition result by a general speech recognition system.
  • the example shown in FIG. 3 may be referred to as a “comparative example”.
  • reference sign V100a schematically shows the state of the game screen at the timing when the user starts speaking.
  • Reference sign V100b schematically shows the state of the game screen at the timing when the recognition result of the speech uttered by the user is presented. If the game screens V100a and V100b are not particularly distinguished, they may be simply referred to as “game screen V100”.
  • Reference numerals V111, V113, and V115 are examples of display information displayed on the game screen V100.
  • the reference sign V111 is an output field for the system to notify the user of the situation in the game.
  • Reference sign V113 is an output field for presenting a recognition result of speech uttered by the user.
  • Reference sign V115 is display information (for example, an icon or the like) for notifying the user of the sound (sound) sound collection status.
  • the user confirms the information presented in the output field V111 while playing the game, and inputs the information by speaking to the system via a sound collection unit provided in the controller. .
  • the system presents the sound collection status of the voice spoken by the user in real time while changing the display mode of the display information V115, and recognizes the voice.
  • information indicating the recognition result is presented in the output field V115.
  • the system converts voice spoken by the user into character information and presents the character information in the output field V113 as a voice recognition result.
  • the user tends to have low attention to information other than the game play screen. Therefore, for example, assuming that the change of the display information V115 (that is, the voice recognition status) can be confirmed by the peripheral visual field, it may be assumed that it is difficult to check the voice recognition result presented in the output field V113.
  • the user in a situation where the user is not so concentrated on game play, the user tends to have greater attention to information outside the game play screen than in a situation where the user concentrates on game play. Therefore, in such a situation, the user can often confirm the recognition result of the voice presented in the output field V113 with a margin.
  • the information processing system recognizes such a change in state or situation, and according to the recognition result of the state or situation, as a process related to speech recognition or a process related to presentation of the recognition result, For example, a process that places more importance on response speed and a process that places more importance on recognition accuracy are dynamically switched.
  • FIG. 4 shows an example of feedback of a speech recognition result by the information processing system according to the present embodiment.
  • reference sign V100c schematically shows the state of the game screen at the timing when the user starts speaking.
  • Reference sign V100d schematically shows the state of the game screen at the timing when the recognition result of the speech uttered by the user is presented.
  • objects to which the same reference numerals as those in FIG. 3 are assigned indicate the same objects as in the example illustrated in FIG. 3.
  • the information processing system may dynamically switch between processing related to speech recognition and processing related to presentation of the recognition result in accordance with the user's speech rate. For example, humans tend to have lower utterance speeds when they are more concentrated in a certain task. On the other hand, humans tend not to slow down the speaking rate under a situation where they can speak in a concentrated manner. Using such characteristics, for example, when the information processing system recognizes that the user's speaking speed is lower than the normal speaking speed based on the context information indicating the user's speaking speed, the information processing system Recognize that you are concentrated in some work.
  • the information processing system performs control so that the search range of the speech recognition processing and natural language processing for the spoken speech becomes wider, thereby further improving the recognition accuracy of the speech. Further, at this time, as shown in FIG. 4, for example, the information processing system controls the search range of the speech recognition processing and natural language processing so that the speech recognition accuracy is further improved. You may show to a user by changing a display mode. Note that, as the display information V115, information for notifying the voice collection status, the control content of the voice recognition processing and natural language processing (for example, the control status of the search range), etc. This corresponds to an example of “related output information”.
  • the information processing system can recognize a speech recognition result (for example, a character converted from speech) according to various states and situations (for example, utterance mode) in a period related to speech collection.
  • Information presentation mode is dynamically controlled.
  • FIG. 5 is a flowchart illustrating an example of a flow of a series of processes of the information processing system according to the present embodiment.
  • the input / output device 30 (for example, the detection unit 313) acquires context information indicating a predetermined state or situation (for example, an utterance mode), and transmits the acquired context information to the information processing device 10 (S101).
  • the input / output device 30 sound collecting unit 311 detects a predetermined event (for example, an operation for speaking in PTT, etc.)
  • the input / output device 30 sound collecting unit 311) collects the voice spoken by the user, The sound signal based on this is transmitted to the information processing apparatus 10 (S103).
  • the information processing apparatus 10 acquires context information from the input / output device 30, and analyzes the acquired context information to recognize a predetermined state or situation in a period related to voice collection. Then, the information processing apparatus 10 selects an operation mode for executing processing related to speech recognition and processing related to presentation of the speech recognition result according to the recognized state or situation (S105). In this description, the information processing apparatus 10 has a mode in which the voice recognition accuracy is more important (a precision-oriented mode) and a mode in which the response speed of the voice recognition result is more important (a speed-oriented mode). It will be described as switching.
  • the information processing apparatus 10 causes the input / output device 30 to present information indicating that the accuracy-oriented mode has been selected. .
  • the information processing apparatus 10 controls the presentation mode of the predetermined output information to be presented to the input / output device 30 so as to correspond to the selected accuracy-oriented mode (S109).
  • the information processing apparatus 10 determines the search range when the speech recognition process is performed on the speech and the result of the speech recognition process on the speech. On the other hand, each process is executed without narrowing the search range when the language analysis process is performed (S111).
  • the information processing apparatus 10 causes the input / output device 30 to present information indicating that the speed-oriented mode is selected.
  • the information processing apparatus 10 controls the presentation mode of the predetermined output information to be presented to the input / output device 30 to be a mode corresponding to the selected speed-oriented mode (S113).
  • the information processing apparatus 10 determines the search range when the speech recognition process is performed on the speech and the result of the speech recognition process on the speech. For each language analysis process, the search range is narrowed to execute each process (S115).
  • the information processing apparatus 10 (the output control unit 111) performs the speech recognition processing based on the result of speech recognition processing (acoustic analysis) or natural language processing (language analysis) for the acoustic signal based on the sound collection result.
  • the result is presented to the input / output device 30.
  • the information processing apparatus 10 may cause the input / output device 30 to present character information obtained by converting the voice based on voice recognition processing or prior language processing (S117).
  • Example of Control According to Context Information Example of Control According to Context Information>
  • context information that is, various states and situations
  • the description will focus on the case where the mode emphasizing accuracy and the mode emphasizing speed are switched.
  • the information processing system performs various processes related to speech recognition and processes for presenting the speech recognition results (hereinafter referred to as these) according to the context information indicating the utterance status (for example, volume level). May be collectively referred to as “processing related to speech recognition”).
  • processing related to speech recognition the information processing system may select the accuracy-oriented mode when the volume of the utterance is larger than the threshold, and may select the speed-oriented mode when the volume is smaller than the threshold. .
  • the information processing system may control processing related to speech recognition in accordance with context information indicating the sound quality of spoken speech.
  • context information indicating the sound quality of spoken speech.
  • the information processing system may select a mode that emphasizes accuracy.
  • the information processing system may select a speed-oriented mode when recognizing that the spoken voice is a female voice.
  • the information processing system may select a speed-oriented mode when recognizing that the spoken voice is a male voice with a low pitch.
  • the information processing system may select a speed-oriented mode when recognizing that the spoken voice is a voice with a higher pitch.
  • the information processing system may control a process related to speech recognition in accordance with the speaker by recognizing the speaker. That is, when the information processing system recognizes that the speaker is a child, the information processing system may select a mode emphasizing accuracy. The information processing system may select a speed-oriented mode when recognizing that the speaker is an adult.
  • the information processing system may control processing related to speech recognition according to the type of function (for example, application) that is executed when collecting spoken speech.
  • the information processing system may select an accuracy-oriented mode when a mail function is being executed (for example, when a speech recognition result is used by the function). Further, the information processing system may select a speed-oriented mode when a so-called instant message function is executed.
  • the information processing system may control processing related to speech recognition in accordance with a communication partner using the speech recognition result.
  • the information processing system may select the accuracy-oriented mode when the communication partner of the user who uttered the voice is a person corresponding to the user's boss. Further, the information processing system may select the speed-oriented mode when the communication partner of the user who uttered the voice is a person corresponding to the user's subordinate.
  • the information processing system may control processing related to speech recognition in accordance with information input status to a keyboard, a controller, or the like.
  • the information processing system may select the accuracy-oriented mode when the operation amount of the input device is large or when the operation frequency is high. Further, the information processing system may select a speed-oriented mode when the operation amount of the operation on the input device is small or when the operation frequency is low.
  • the information processing system may control processing related to speech recognition according to the type of device (for example, input / output device) used by the user.
  • the information processing system may select an accuracy-oriented mode under a situation where the user uses a device that does not have a display unit such as a display.
  • the information processing system may select a speed-oriented mode under a situation where the user uses a device having a display unit.
  • the information processing system may recognize the state and situation of the user by using the user's biological information, and control processing related to speech recognition according to the recognition result.
  • the information processing system may select a mode that emphasizes accuracy.
  • the information processing system may select a speed-oriented mode.
  • the example described above is merely an example, and the information processing system recognizes various states and situations according to the acquired context information, and controls processing related to speech recognition according to the states and situations. If possible, it is not necessarily limited to only the example described above.
  • context information may be given from the user to the information processing system.
  • the information processing system switches to the mode selected by the user. Also good.
  • the information processing system has been described by focusing on an example of switching between the mode emphasizing accuracy and the mode emphasizing speed, but the present invention is not necessarily limited only to the control.
  • the information processing system may control the width of a search range in speech recognition processing or natural language processing in an analog manner according to context information. Further, the information processing system may dynamically control the search range according to the context information at that time even during the execution of the process related to speech recognition.
  • Modification 1-1 an example of control according to context information (that is, various states and situations) has been described with a specific example.
  • Modification 1-2 Example of Information Presentation Mode in Context Information> Subsequently, as Modification 1-2, with reference to FIG. 6, when the information processing system according to the present embodiment controls processing related to speech recognition according to context information, the control result (for example, selection An example of a mode of presenting information for notifying the user of (modes) is described.
  • FIG. 6 is an explanatory diagram for explaining the outline of the information processing system according to the modified example 1-2. Note that, in the present description, as in the above-described embodiment, the description will focus on the case where the mode emphasizing accuracy and the mode emphasizing speed are switched.
  • the information processing system may notify the user of the selected mode by the color of visual feedback.
  • the information processing system sets the selected mode to the user depending on the color difference of the display information V115 for notifying the user of the sound collection status of the sound (sound). Notify.
  • the information processing system may notify the user of the selected mode by the shape of visual feedback. For example, in the example illustrated in FIG. 6, when the accuracy-oriented mode is selected, the information processing system additionally presents an icon indicating that the mode is selected.
  • the information processing system may express the selected mode by words. For example, in the example shown in FIG. 6, when the speed-oriented mode is selected, the information processing system simply presents the word “please speak”. On the other hand, when the accuracy-oriented mode is selected, the information processing system presents the phrase “Please speak slowly”, unlike when the speed-oriented mode is selected.
  • the method for presenting each word to the user is not particularly limited. As a specific example, the wording may be presented to the user as display information. As another example, the wording may be presented to the user as voice based on a technique such as TTS.
  • the information processing system may notify the user of the selected mode by sound feedback.
  • the information processing system is selected by outputting sound effects at different pitches when the speed-oriented mode is selected and when the accuracy-oriented mode is selected. The user is notified of the mode.
  • the example described above is just an example, and the method for notifying the user of the selected mode and the type of device used for the notification are not particularly limited.
  • the information processing system may notify the user of the selected mode by vibrating the actuator built in the device held by the user in a different manner depending on the selected mode.
  • Modification 1-2 with reference to FIG. 6, when the information processing system according to the present embodiment controls processing related to speech recognition according to context information, the control result (for example, selected) The example of the presentation mode of the information for notifying the user of the (mode) has been described.
  • Modification 1-3 Other Application Examples> Subsequently, as Modification 1-3, another application example of the information processing system according to the present embodiment will be described.
  • the example in which the information processing system according to the present embodiment is applied to speech recognition has been described.
  • the content of the process is not necessarily limited to the process related to the recognition of the voice.
  • the information processing system may be applied to recording of collected voice (that is, recording of voice).
  • the information processing system may control the recording quality according to the speech rate.
  • the information processing system may control the recording quality to be higher when the speaking rate is faster than the threshold.
  • the information processing system may control the recording quality to be lower when the speaking rate is slower than the threshold.
  • the embodiment and the modification described above mainly focus on an example of suppressing the control for limiting the search range in the speech recognition process or the natural language process according to the state or situation indicated by the context information.
  • the information processing system according to the present embodiment may perform control so that the search range in the speech recognition process or the natural language process is more limited according to the state or situation indicated by the context information.
  • the search range in speech recognition processing and natural language processing is more limited.
  • the response speed may be further improved by controlling as described above.
  • the information processing system performs processing related to speech recognition and results of speech recognition according to various states and situations (for example, utterance modes) during a period related to speech collection.
  • the presentation mode is dynamically controlled.
  • FIG. 7 is an explanatory diagram for explaining an overview of the information processing system according to the present embodiment, and shows an example of a UI that allows character information to be input by voice.
  • the screen V200a shown in the left diagram of FIG. 7 converts voice spoken by the user into character information based on voice recognition processing (acoustic analysis) or natural language processing (language analysis), and presents the character information to the user.
  • 2 shows an example of a UI for doing this.
  • the screen V200a presents, in an output field indicated by the reference symbol V201a, character information obtained by converting the voice so that it can be corrected one by one via an input device such as a keyboard or a touch panel (ie, It is presented to be amendable by the same method as general text input).
  • a screen V200b shown in the right side of FIG. 7 shows another example of a UI for converting voice spoken by the user into character information and presenting the character information to the user.
  • the screen V200b presents character information obtained by converting speech in the output field indicated by the reference symbol V201b. Further, at this time, the screen V200b is presented so that it can be corrected for each unit of words based on the results of morphological analysis and syntactic analysis on the character information whose speech has been converted by the speech recognition processing.
  • the user when the user is paying attention to any target in a situation where voice is input while performing tasks such as playing a game or watching a video, the user recognizes the voice recognition result. It may be assumed that there is no room for correcting the error. Therefore, in such a case, for example, it is desirable to present the speech recognition result in a manner that requires no correction operation as much as possible.
  • the user inputs information (for example, voice) with a margin. Under such circumstances, it may be assumed that it is difficult to input an arbitrary sentence.
  • the information processing system recognizes a user's state and situation, and recognizes a speech recognition result (for example, a character converted from speech) according to the recognition result.
  • a speech recognition result for example, a character converted from speech
  • a UI capable of dynamically controlling the presentation mode of information
  • FIG. 8 is an explanatory diagram for describing an example of a UI provided by the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment controls the presentation mode of the speech recognition result according to, for example, the degree of attention of the user related to the confirmation of the speech recognition result and the accuracy of the speech recognition result.
  • the example shown in FIG. 8 is used to check the degree of attention to the user's game (in other words, to confirm the voice recognition result in a situation where the user inputs information by voice while playing the game.
  • An example in the case of controlling the presentation mode of the recognition result of the voice according to the level of such attention is shown.
  • the user utters “Cerberus is strong and immediately escapes after cure”, and the information processing system utters the voice uttered by the user, “Kicking Velos is strong and immediately “Run away.” That is, in the example shown in FIG. 8, since the accuracy of recognizing the word “Cerberus” and the word “Cure” in the voice spoken by the user is low, an erroneous recognition result is presented as a result. The Rukoto.
  • a screen V210a shown in the left diagram of FIG. 8 shows an example of a screen (UI) presented in a situation where the user hardly plays the game and can confirm the speech recognition result with a margin. ing. Therefore, in this case, the information processing system outputs a recognition result of the collected voice (that is, character information obtained by converting the voice) that “the kicking beloth is strong and escapes immediately” to the output field.
  • a recognition result of the collected voice that is, character information obtained by converting the voice
  • the screen V210b shown in the center diagram of FIG. 8 is under a situation where the user is paying more attention to playing the game than in the situation shown in the left diagram (for example, a situation in which the game is a little crazy).
  • An example of a screen (UI) to be presented is shown.
  • the information processing system uses the words “Cerberus” and “Cure”, which have lower accuracy, among the recognition results of the spoken speech, and character information indicating the pronunciation of the words (for example, Hiragana).
  • the screen V210b shown in the right side of FIG. 8 is under a situation where the user is paying more attention to playing the game than in the situation shown in the center figure (for example, under a situation in which the user is absorbed in the game).
  • An example of a screen (UI) to be presented is shown.
  • the information processing system is not limited to the words “Cerberus” and “Cure” with lower accuracy, among the recognition results of the spoken speech, It is presented as character information indicating the pronunciation of the sound.
  • the information processing system recognizes the speech among the speech recognition results according to, for example, the degree of attention of the user related to the confirmation of the speech recognition results.
  • the mode of presenting a phrase with a lower degree of accuracy is controlled.
  • the information processing system dynamically controls a determination criterion (for example, a threshold value to be compared with the accuracy) for controlling the presentation mode according to the degree of attention.
  • the information processing system presents at least a part of words / phrases in the speech recognition result according to the context information indicating various states and situations and the accuracy related to speech recognition.
  • Control aspects dynamically.
  • an incorrect conversion result for example, a phrase having a different semantic content
  • the information presented based on the speech recognition result corresponds to an example of “output information related to speech collection”.
  • the information processing system may control the presentation mode of at least some of the words in the speech recognition result according to the state of the sound collection environment.
  • the information processing system converts at least some words (for example, words with lower accuracy) from the speech recognition results according to the magnitude of the influence of ambient noise, and characters indicating the pronunciation of the words It may be presented as information.
  • the information processing system may present the entire speech recognition result as character information indicating the pronunciation of the speech.
  • the information processing system changes the presentation mode of at least some words in the speech recognition result according to the context information indicating various states and situations and the accuracy related to speech recognition.
  • the mechanism for controlling automatically will be described in more detail.
  • the information processing system controls the presentation mode of words with lower accuracy related to speech recognition according to the degree of attention of the user related to confirmation of the speech recognition result. Further, the information processing system may control the presentation mode of at least some of the words in the voice recognition result according to the state of the voice collection environment.
  • a situation may be assumed in which the information processing system intentionally controls the presentation mode of the speech recognition result based on an instruction from the user (hereinafter also referred to as “user control”).
  • user control an instruction from the user
  • the information processing system may control the presentation mode of the speech recognition result based on user control.
  • the information processing system calculates the coefficient t based on the calculation formula shown below as (Equation 1), and compares the coefficient t with the accuracy related to speech recognition.
  • the presentation mode of at least some of the speech recognition results is controlled.
  • FIG. 9 is an explanatory diagram for explaining details of the operation of the information processing system according to the present embodiment, and shows an example of characteristics of the variables ⁇ and ⁇ .
  • the graph on the left side of FIG. 9 is a graph showing the characteristics of the variable ⁇ .
  • the vertical axis indicates the value of ⁇
  • the horizontal axis indicates the degree of attention of the user related to the confirmation of the speech recognition result.
  • the diagram on the right side of FIG. 9 is a graph showing the characteristics of the variable ⁇ .
  • the vertical axis indicates the value of ⁇
  • the horizontal axis indicates the magnitude of the influence of the factor that inhibits the sound collection of the sound in the sound collection environment.
  • the variable ⁇ indicates a higher value as the user's attention related to the confirmation of the speech recognition result is lower.
  • the variable ⁇ indicates a higher value as the influence of the factor that inhibits the sound collection is larger as in the case where the influence of noise is large.
  • represents a variable according to user control, and indicates 1 when there is an instruction from the user, and indicates 0 when there is no instruction from the user.
  • the accuracy related to speech recognition is 0.0 to 1.0.
  • the information processing system recognizes the degree of attention of the user related to the confirmation of the speech recognition result, the state of the sound collection environment of the sound, and the presence / absence of user control. Based on this, the coefficient t is calculated. Then, the information processing system compares, for at least some of the words / phrases included in the speech recognition result, the accuracy related to the word recognition with the calculated coefficient t, and determines the presentation mode of the word / phrase according to the comparison result. Control.
  • the accuracy related to the recognition of the target phrase is “0.7”.
  • the information processing system for example, based on the result of the speech recognition processing or natural language processing, for example, the character that takes into account the semantic content. Presented as information (for example, kanji or kanji text in Japanese).
  • the information processing system presents the target word / phrase in a mode different from the result of the speech recognition processing or natural language processing for the word / phrase ( That is, the presentation mode of the word is controlled).
  • the information processing system presents a target word / phrase as character information indicating the pronunciation of the word / phrase (for example, a hiragana sentence in Japanese).
  • the variables ⁇ , ⁇ , and ⁇ are added. Therefore, when at least one of the variables is “1.0”, the calculated coefficient t indicates a value larger than the accuracy of the target word regardless of the values of the other variables. Become. That is, in this case, the target word / phrase is presented as character information indicating the pronunciation of the word / phrase, for example.
  • FIG. 10 is an explanatory diagram for explaining the details of the operation of the information processing system according to the present embodiment, and shows another example of the characteristics of the variables ⁇ and ⁇ .
  • the characteristics of the variables ⁇ and ⁇ are set in a range where the addition result of the variables ⁇ and ⁇ does not exceed “1.0”. That is, in the example shown in FIG. 10, the coefficient t does not take a value of “1.0” or more only with the values of the variables ⁇ and ⁇ , and takes a value of “1.0” or more only when there is user control. It will be possible.
  • the information processing system according to the present embodiment, among the speech recognition results, according to the context information indicating various states and situations and the accuracy related to speech recognition, A mechanism for dynamically controlling the presentation mode of at least some of the phrases has been described.
  • FIG. 11 is a flowchart illustrating an example of a flow of a series of processes of the information processing system according to the present embodiment.
  • the input / output device 30 (for example, the detection unit 313) includes context information that indicates the degree of attention of the user related to confirmation of the speech recognition result, and context that indicates the state of the sound collection environment Get information. Then, the input / output device 30 transmits the acquired context information to the information processing device 10 (S201). In addition, when the input / output device 30 (sound collecting unit 311) detects a predetermined event (for example, an operation for speaking in PTT, etc.), the input / output device 30 (sound collecting unit 311) collects the voice spoken by the user, The sound signal based on this is transmitted to the information processing apparatus 10 (S203).
  • a predetermined event for example, an operation for speaking in PTT, etc.
  • the information processing apparatus 10 acquires context information from the input / output device 30, and analyzes the acquired context information to recognize a predetermined state or situation in a period related to voice collection. As a specific example, the information processing apparatus 10 recognizes the degree of attention of the user related to the confirmation of the speech recognition result and the state of the sound collection environment based on the acquired context information. Then, the information processing apparatus 10 calculates a threshold (that is, the coefficient t shown as (Equation 1)) used for determining the accuracy of the speech recognition result according to the recognition results of various states and situations (S205).
  • a threshold that is, the coefficient t shown as (Equation 1)
  • the information processing apparatus 10 converts the voice into character information based on the result of voice recognition processing (acoustic analysis) or natural language processing (language analysis) on the acoustic signal based on the voice collection result.
  • the accuracy ie, the accuracy of the speech recognition result relating to the conversion is acquired (S207).
  • the information processing apparatus 10 determines the accuracy of each word / phrase included in the character information obtained by converting the voice based on the calculated threshold value, and presents the word / phrase according to the determination result. To control. As a specific example, the information processing apparatus 10 changes the word / phrase presentation mode for words / phrases whose accuracy is lower than a threshold value so that character information indicating the pronunciation of the word / phrase is presented as a recognition result of the word / phrase. Control is performed (S209).
  • Modified Example 2-1 Example of Display Control> First, as Modification 2-1, with reference to FIG. 12, when the information processing system according to the present embodiment controls the presentation mode of at least some of the speech recognition results, An example of control related to display will be described.
  • FIG. 12 is an explanatory diagram for explaining an overview of the information processing system according to the modified example 2-1.
  • the information processing system for example, the speech recognition result according to the degree of attention of the user related to confirmation of the speech recognition result and the state of the sound collection environment of the speech.
  • the presentation mode of at least some of the phrases is controlled. Therefore, in such a case, for example, when the information processing system presents the speech recognition result to the user, the word / phrase is presented by highlighting the word / phrase whose presentation mode is controlled. The user may be notified that the aspect is controlled.
  • the information processing system may emphasize the word / phrase by wrapping the word / phrase as the control target of the presentation mode with double quotations.
  • the information processing system may emphasize the word / phrase by underlining the word / phrase that is the control target of the presentation mode.
  • the information processing system controls the size, thickness, color, shading, and the like of a word that is a subject of control of the presentation mode, thereby May be emphasized.
  • the information processing system may emphasize the word / phrase by inserting a space before and after the word / phrase to be controlled in the presentation mode.
  • the user can intuitively recognize the phrase that is the subject of control of the presentation mode from the recognition result of the presented voice.
  • the example shown in FIG. 12 is merely an example, and the method is not particularly limited as long as it is possible to emphasize the word / phrase that is the control target of the presentation mode.
  • Modification 2-2 Example of Control for Recognizing English Speech> Subsequently, as a modified example 2-2, an example of control when the information processing system according to the present embodiment recognizes a voice spoken in English will be described with reference to FIG.
  • FIG. 13 is an explanatory diagram for explaining an overview of the information processing system according to the modification 2-2.
  • English has no concept of using kanji and hiragana properly in the case of Japanese. Therefore, when presenting the recognition result of English speech, it is difficult to perform control to switch between kanji-kana mixed sentences and hiragana sentences as in Japanese.
  • the information processing system in the situation where the recognition result of the English speech is presented, when the certainty of recognition is low for some words included in the recognition result, May be presented in original or singular form.
  • FIG. 13 shows the phrase “items” among the recognized voices in a situation where the user speaks “I got rare items” in English and the information processing system recognizes the spoken voice. ) Shows an example of control when the accuracy related to recognition is low.
  • the information processing system presents the recognition result of the word “items” with low accuracy for speech recognition as “item” which is the original form (singular form) of the word. is doing.
  • the information processing system highlights the word / phrase whose presentation mode is controlled, as in the example described as the modified example 2-1, to inform the user that the presentation mode of the word / phrase is controlled. You may be notified.
  • Modification 2-2 an example of control when the information processing system according to the present embodiment recognizes speech uttered in English has been described with reference to FIG.
  • the speech recognition result is expressed as hiragana or the like. Is output as character information indicating the pronunciation of the sound.
  • hiragana when visually recognizing a sentence presented only in hiragana, it tends to be harder to understand the semantic content than when recognizing a kanji-kana mixed sentence visually.
  • the information processing system for example, in a situation where the number of phrases presented in hiragana increases due to the control of the presentation mode, It may be output as a sound based on such a technique.
  • Such control makes it easier for the user to understand the speech recognition result than when visually recognizing a sentence presented in hiragana.
  • the information processing system may notify that the character information is converted into voice based on predetermined notification information.
  • the information processing system controls the presentation mode (for example, color, thickness, shading, etc.) of the character information obtained by converting the sound, thereby converting the character information into sound and outputting the sound. It may be notified to the user.
  • the information processing system according to the context information indicating various states and situations, and the accuracy related to speech recognition, at least a part of the speech recognition result.
  • the presentation mode is dynamically controlled. By such control, for example, even in a situation where it is difficult for the user to confirm the speech recognition result with a margin, an incorrect conversion result (for example, a phrase having a different semantic content) is presented. It is possible to prevent a situation in which understanding of the recognition result is hindered. In addition, even in situations where at least some of the word information converted from speech is corrected, it is more than when correcting the target words under circumstances where incorrect conversion results are presented. It becomes possible to easily correct the target phrase.
  • the information processing system according to the present embodiment can be combined with the information processing system according to the first embodiment described above.
  • the information processing system may control the search range and the speech recognition result presentation mode for speech recognition processing and natural language processing according to various states and situations indicated by the acquired context information. Good.
  • Some systems for recognizing speech uttered by a user provide a UI for feeding back the execution status of processing related to speech recognition to the user.
  • a specific example is a UI that measures the volume of sound (sound) collected by a sound collection unit such as a microphone and presents the measurement result of the volume in real time as display information such as a volume meter. It is done.
  • the user can intuitively (visually) recognize that the voice spoken by the user is recognized by the system.
  • the UI that feeds back the measurement result of the volume of the sound collected by the sound collecting unit described above to the user does not necessarily function effectively in a situation where the influence of noise such as ambient environmental sound is large. Not always. Specifically, there is a case where noise from the sound collection unit is collected and the measurement result of the volume of the noise is fed back to the user. In this case, the user receives the feedback and the surrounding noise. It is difficult to determine which sound collection result is obtained. As a result, it becomes difficult for the user to determine whether or not the voice spoken by the user is recognized by the system.
  • the information processing system can identify voice and noise, and can notify the user of information at an earlier timing when the voice is collected.
  • Provide UI For example, FIG. 14 is an explanatory diagram for explaining an overview of the information processing system according to the present embodiment.
  • the example shown as a comparative example in the upper stage schematically shows the timing of the feedback in the case of feeding back information to the user based on the result of the recognition process for the voice collection result.
  • the example shown as an example in the lower stage shows an example of the timing at which the information processing system according to the present embodiment feeds back information to the user when sound is collected.
  • the information processing system starts acquiring voice input (for example, collecting sound) and the user starts speaking toward the sound collecting unit, the sound uttered by the user is sequentially collected by the information processing system.
  • the information processing system according to the comparative example sequentially executes recognition processing on the collected sound and acquires the result of the recognition processing for at least some of the sounds, the output information V301 based on the result of the recognition processing is obtained. It is presented to the user as an intermediate result.
  • the recognition processing for example, speech recognition processing or natural language processing
  • the information processing system outputs output information V303 based on the results of the processing to the user as a final result.
  • the information processing system When the information processing system according to the present embodiment acquires an acoustic signal based on a sound collection result of the speech uttered by the user, the information processing system detects (extracts) an audio signal included in the acoustic signal based on a technique such as VAD. And if the said information processing system detects the audio
  • the information processing system according to the embodiment sequentially executes recognition processing on the collected sound, similarly to the information processing system according to the comparative example, and according to the execution result of the recognition processing.
  • the output information V303 is presented to the user as an intermediate result.
  • the recognition processing for example, speech recognition processing or natural language processing
  • the information processing system outputs output information V303 based on the result of each processing as a final result. To the user.
  • the information processing system presents the notification information V305 to the user at an earlier timing than the output information V301 based on the recognition processing result for the collected sound. Is possible. Further, since the notification information V305 is presented to the user based on the detection result of the audio signal included in the collected acoustic signal, the notification information V305 is presented to the user when only ambient noise is collected. Not. With such a configuration, the information processing system according to the present embodiment can identify voice and noise, and can notify the user of information at an earlier timing when the voice is collected.
  • FIG. 15 is a flowchart illustrating an example of a flow of a series of processes of the information processing system according to the present embodiment.
  • the information processing apparatus 10 starts acquiring an acoustic signal based on the sound collection result by the sound collection unit 311 from the input / output device 30 (S301). Further, the information processing apparatus 10 (voice detection unit 103) detects a user's utterance by extracting a voice signal included in the acoustic signal acquired from the input / output device 30 based on a technique such as VAD (S303). . As described above, the information processing apparatus 10 sequentially detects the user's utterance based on the extraction of the audio signal from the acoustic signal sequentially acquired from the input / output device 30 (S305, NO).
  • the information processing apparatus 10 detects the user's utterance (S305, YES)
  • the information processing apparatus 10 (YES in S305) notifies the user that the utterance has been detected by causing the input / output device 30 to present the notification information ( S307).
  • the information processing apparatus 10 speech recognition processing unit 105) performs so-called speech recognition processing on the speech signal extracted from the acoustic signal, thereby converting the speech signal into character information indicating the pronunciation of the speech. .
  • the information processing apparatus 10 output control unit 111) may cause the input / output device 30 to continue presenting the notification information until the result of the voice recognition processing is acquired (S309, NO).
  • the information processing apparatus 10 When the information processing apparatus 10 (the output control unit 111) acquires the result of the voice recognition process on the voice signal, the information processing apparatus 10 (output control unit 111) inputs / outputs information based on the result of the voice recognition process (for example, character information converted from voice).
  • the device 30 is presented (S311). Further, the information processing apparatus 10 (output control unit 111) executes natural language processing on the result of the speech recognition processing, and inputs / outputs information indicating the speech recognition result based on the result of the natural language processing. 30 may be presented.
  • Modification 3-1 Example of Notification Information>
  • FIG. 16 is an explanatory diagram for explaining the outline of the information processing system according to the modification 3-1, and shows an example of notification information.
  • the information processing system notifies the user of each state (hereinafter, also referred to as “speech detection state”) of a state in which an utterance is detected and a state in which no utterance is detected by presenting a word.
  • speech detection state a state in which an utterance is detected
  • V311a and V313a in FIG. 16 indicate an example of display information for notifying the utterance detection state by presenting a wording.
  • Reference sign V311a indicates a state before the utterance (that is, a state where no utterance is detected).
  • Reference sign V313a indicates a state during utterance (that is, a state in which utterance is detected).
  • the information processing system presents the word “Waiting your speech” before the utterance and the word “Recognizing ...” during the utterance. Thereby, the user can recognize whether or not his / her utterance is detected according to the presented wording.
  • the information processing system may notify the user of the utterance detection state by changing display information such as an icon.
  • reference numerals V311b and V313b in FIG. 16 indicate an example of display information for notifying the utterance detection state by changing display information such as an icon.
  • Reference sign V311b indicates a state before the utterance.
  • Reference sign V313b indicates a state during speech.
  • the information processing system presents a microphone icon before the utterance, and changes the microphone icon to an icon with an ear image added during the utterance. Thereby, the user can recognize whether or not his / her utterance is detected according to the presented icon.
  • the information processing system may notify the user of the utterance detection state by changing the color of display information such as an icon.
  • reference numerals V311c and V313c in FIG. 16 indicate an example of display information for notifying the detection state of an utterance by changing the color of display information such as an icon.
  • Reference sign V311c indicates a state before the utterance.
  • Reference sign V313c indicates a state during speech.
  • the information processing system presents the microphone icon in different colors between the state before the utterance and the state before the utterance. Thereby, the user can recognize whether or not his / her utterance is detected according to the color of the presented icon.
  • reference signs V311d and V313d in FIG. 16 indicate an example of display information for notifying the detection state of the utterance by animation display.
  • Reference sign V311d indicates a state before the utterance.
  • Reference sign V313d indicates a state during speech.
  • the information processing system detects a speech, the information processing system presents an animation in which a symbol is sucked into a microphone icon. Thereby, the user can recognize whether or not his / her utterance is detected depending on whether or not animation is presented.
  • the example described above with reference to FIG. 16 is merely an example, and if it is possible to notify the user of the utterance detection state, the method and the type of device used for notification of the notification information are not particularly limited. It is not limited.
  • the information processing system may notify the user of the utterance detection state by outputting sound such as sound effects from a sound output unit such as a speaker.
  • the information processing system may notify the user of the utterance detection state by vibration by driving an actuator of a device held by the user.
  • Modification 3-1 As described above, as Modification 3-1, with reference to FIG. 16, an example of the notification information that the information processing system according to the present embodiment presents to the user based on the detection result of speech (voice) has been described.
  • Modified Example 3-2 Presentation Example of Speech Recognition State> Subsequently, as a modified example 3-2, an example of a UI in a case where the recognition state of the uttered voice is presented to the user in addition to the utterance detection state will be described.
  • FIG. 17 is an explanatory diagram for explaining an example of a UI provided by the information processing system according to the modified example 3-2.
  • stepwise according to the voice recognition state 3 shows an example of a UI when information is presented to the user.
  • the information processing system notifies the notification information based on an acoustic model obtained in the course of acoustic analysis for the audio signal.
  • the information processing system when the information processing system acquires acoustic model data of the audio signal by performing acoustic analysis on the audio signal, the output information V321 based on the acoustic model (for example, indicates the pronunciation of the audio) Information) to the user.
  • the information processing system when the information processing system acquires a speech recognition result based on the data of the acoustic model, the information processing system sequentially presents output information V323 based on the recognition result as an intermediate result.
  • the speech recognition process and the natural language process for a series of sounds are completed, the information processing system presents output information V325 based on the result of each process to the user as a final result.
  • FIG. 18 is an explanatory diagram for describing another example of the UI provided by the information processing system according to Modification 3-2.
  • the user speaks “Oh I'm going to join the party tonight.”, And the information processing system presents information based on the recognition result of the voice spoken by the user. Show.
  • the information processing system performs an acoustic analysis on the voice “Oh I'm”, as shown in the first diagram, the information processing system performs the analysis based on the acoustic model data obtained as a result of the acoustic analysis.
  • Output information V331 indicating the pronunciation of the voice is presented to the user.
  • the output information V331 already presented is converted to “Oh I ′” based on the recognition result as illustrated in the second diagram.
  • the output information V333 is presented as an intermediate result.
  • the output information V335 indicating the pronunciation of the speech is presented to the user following the phrase “Oh I'm” that has already been presented.
  • the output information V335 that has already been presented is “going to join” based on the recognition result, as illustrated in the fourth diagram.
  • the output information V337 is presented as an intermediate result.
  • the information processing system executes the control as described above based on the sequentially input speech, and when the speech recognition processing and natural language processing for the series of speech are completed, the output information V329 based on the result of each processing is finalized. Present to the user as a result. For example, in the example illustrated in FIG. 18, the information processing system presents output information V329 indicating a sentence “Oh I ’m going to join the party tonight.” As a recognition result of the speech uttered by the user.
  • the information processing system provides the notification information based on the utterance detection result until the output information based on the recognition result of the uttered speech is presented.
  • the output information based on the acoustic model data of the speech is presented.
  • Modification 3-2 an example of a UI in the case where the recognition state of the uttered voice is presented to the user in addition to the utterance detection state has been described with reference to FIGS. 17 and 18.
  • the information processing system detects (extracts) a sound signal included in an acoustic signal based on a sound collection result based on a technique such as VAD, and notifies based on the detection result.
  • the information processing system can present the notification information to the user at an earlier timing than when the output information based on the recognition processing result for the collected sound is presented. It becomes.
  • the notification information is presented to the user based on the detection result of the audio signal included in the collected acoustic signal, the notification information is presented to the user when only ambient noise is collected.
  • the information processing system can identify voice and noise, and can notify the user of information at an earlier timing when the voice is collected.
  • the information processing system can be combined with the information processing systems according to the first and second embodiments described above.
  • the information processing system notifies the notification information based on the detection result of the voice, and various states and situations indicated by the acquired context information when performing voice recognition processing and natural language processing on the voice.
  • the search range may be controlled.
  • the information processing system may control the presentation mode of the output information according to various states and situations indicated by the acquired context information.
  • FIG. 19 is a functional block diagram illustrating an example of a hardware configuration of the information processing apparatus 900 configuring the information processing system 1 according to an embodiment of the present disclosure.
  • the information processing apparatus 900 configuring the information processing system 1 mainly includes a CPU 901, a ROM 903, and a RAM 905.
  • the information processing apparatus 900 further includes a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, and a connection port 923. And a communication device 925.
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls all or a part of the operation in the information processing apparatus 900 according to various programs recorded in the ROM 903, the RAM 905, the storage apparatus 919, or the removable recording medium 927.
  • the ROM 903 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 905 primarily stores programs used by the CPU 901, parameters that change as appropriate during execution of the programs, and the like. These are connected to each other by a host bus 907 constituted by an internal bus such as a CPU bus. Note that the acoustic analysis unit 101, the language analysis unit 107, the context analysis unit 109, and the output control unit 111 described above with reference to FIG. 2 can be realized by the CPU 901, for example.
  • the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925 are connected to the external bus 911 via an interface 913.
  • the input device 915 is an operation means operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, a lever, and a pedal. Further, the input device 915 may be, for example, remote control means (so-called remote control) using infrared rays or other radio waves, or an external connection device such as a mobile phone or a PDA corresponding to the operation of the information processing device 900. 929 may be used. Furthermore, the input device 915 includes an input control circuit that generates an input signal based on information input by a user using the above-described operation means and outputs the input signal to the CPU 901, for example. A user of the information processing apparatus 900 can input various data and instruct a processing operation to the information processing apparatus 900 by operating the input device 915.
  • the input unit 310 described above with reference to FIG. 4 can be realized by the input device 915, for example.
  • the output device 917 is a device that can notify the user of the acquired information visually or audibly. Examples of such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, display devices such as lamps, audio output devices such as speakers and headphones, printer devices, and the like.
  • the output device 917 outputs results obtained by various processes performed by the information processing apparatus 900. Specifically, the display device displays results obtained by various processes performed by the information processing device 900 as text or images.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, and the like into an analog signal and outputs the analog signal. Note that the output unit 330 described above with reference to FIG. 6 can be realized by the output device 917, for example.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing device 900.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores programs executed by the CPU 901 and various data.
  • the drive 921 is a reader / writer for a recording medium, and is built in or externally attached to the information processing apparatus 900.
  • the drive 921 reads information recorded on a removable recording medium 927 such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 905.
  • the drive 921 can also write a record to a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory that is mounted.
  • the removable recording medium 927 is, for example, a DVD medium, an HD-DVD medium, a Blu-ray (registered trademark) medium, or the like.
  • the removable recording medium 927 may be a compact flash (registered trademark) (CF: CompactFlash), a flash memory, an SD memory card (Secure Digital memory card), or the like. Further, the removable recording medium 927 may be, for example, an IC card (Integrated Circuit card) on which a non-contact IC chip is mounted, an electronic device, or the like.
  • CF CompactFlash
  • SD memory card Secure Digital memory card
  • the connection port 923 is a port for directly connecting to the information processing apparatus 900.
  • Examples of the connection port 923 include a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, and the like.
  • As another example of the connection port 923 there are an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, and the like.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to a communication network (network) 931.
  • the communication device 925 is, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communication, or the like.
  • the communication device 925 can transmit and receive signals and the like according to a predetermined protocol such as TCP / IP, for example, with the Internet or other communication devices.
  • the communication network 931 connected to the communication device 925 is configured by a wired or wireless network, and may be, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like. .
  • each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Therefore, it is possible to change the hardware configuration to be used as appropriate according to the technical level at the time of carrying out this embodiment.
  • various configurations corresponding to the information processing apparatus 900 configuring the information processing system 1 according to the present embodiment are naturally provided.
  • a computer program for realizing each function of the information processing apparatus 900 constituting the information processing system 1 according to the present embodiment as described above can be produced and mounted on a personal computer or the like.
  • a computer-readable recording medium storing such a computer program can be provided.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
  • the above computer program may be distributed via a network, for example, without using a recording medium.
  • the number of computers that execute the computer program is not particularly limited.
  • the computer program may be executed by a plurality of computers (for example, a plurality of servers) in cooperation with each other.
  • a single computer or a combination of a plurality of computers is also referred to as a “computer system”.
  • the information processing system according to each embodiment of the present disclosure can be applied to a system or device capable of inputting information by voice.
  • the information processing system according to the present embodiment can be applied to an information processing apparatus such as a smartphone, a tablet terminal, or a PC (Personal Computer).
  • the information processing apparatus may be configured as the input / output apparatus 30 described above, or may be configured as an apparatus in which the input / output apparatus 30 and the information processing apparatus 10 are integrally configured. .
  • the information processing system according to the present embodiment may be applied to an in-vehicle system such as a so-called car navigation system.
  • the information processing system according to the present embodiment may be applied to so-called smart home appliances.
  • the application example described above is merely an example, and the application destination of the information processing system according to the present embodiment is not particularly limited as long as it is a system or device capable of inputting information by voice.
  • An information processing apparatus comprising: (2) The said control part is alert
  • Information processing device (3) The information processing apparatus according to (2), wherein the control unit controls a search range for converting the collected voice into character information according to the context information. (4) The information processing apparatus according to (2), wherein the control unit controls a parameter related to recording of the collected voice according to the context information.
  • the acquisition unit acquires accuracy information related to accuracy of speech recognition processing for the collected sound
  • the control unit is configured to use, as output information, character information obtained by converting the voice in a manner corresponding to the context information corresponding to the collected voice and the accuracy information corresponding to the voice.
  • To output The information processing apparatus according to (1).
  • the controller is Each of the one or more character information converted from the voice is output to the output unit in a mode based on a comparison result between the accuracy information corresponding to the character information and a threshold value, Controlling the threshold based on the context information;
  • the information processing apparatus according to (5).
  • the control unit causes the output unit to output the character information whose accuracy information is equal to or less than the threshold among the one or more pieces of character information into which the speech has been converted, as character information indicating pronunciation of the corresponding speech,
  • the information processing apparatus according to (6).
  • the control unit causes the output unit to output, as original or singular character information, the character information whose accuracy information is equal to or less than the threshold among the one or more character information converted from the voice. ).
  • the control unit converts the one or more character information into a sound when the accuracy information of at least a part of the character information among the one or more character information converted from the sound is equal to or less than the threshold.
  • the information processing apparatus according to (6), wherein the sound is output to the output unit.
  • the context information includes information on a degree of attention of a user related to confirmation of the character information converted from the voice,
  • the control unit controls the threshold to be higher as the attention is lower.
  • the control unit includes the character information that presents at least a part of the character information to be presented in a predetermined manner among the one or more pieces of character information into which the voice has been converted;
  • the information processing apparatus according to any one of (5) to (11), wherein the information is presented in an identifiable manner.
  • the information processing apparatus includes information related to an environment state in which the sound is collected.
  • the context information includes information related to a state of input information or an input status of the input information.
  • the context information includes information related to a speech utterance mode.
  • the context information includes information regarding a state of a user who utters the voice.
  • the acquisition unit acquires a detection result of the sound included in the collected sound
  • the control unit causes at least a predetermined output unit to notify notification information based on the detection result of the sound before presenting information based on a result of speech recognition processing on the sound, and after notifying the notification information, Output output information,
  • the information processing apparatus according to any one of (1) to (16).
  • a transmission unit that transmits context information to an external device during a period related to sound collection acquired by a predetermined acquisition unit;
  • An information processing apparatus comprising: (19) Computer system Obtaining context information for a period related to voice collection; Outputting output information related to sound collection in a manner corresponding to the acquired context information to a predetermined output unit; Including an information processing method.
  • Computer system Transmitting context information in a period related to sound collection acquired by a predetermined acquisition unit to an external device; Presenting output information related to the collection of the sound transmitted from the external device in a manner corresponding to the context information; Including an information processing method.
  • An information processing apparatus comprising: (22) The acquisition unit acquires first character information as information based on a result of a voice recognition process for the voice after acquiring the voice detection result; The control unit outputs the first character information to a predetermined output unit before presenting the second character information based on a result of natural language processing on the first character information.
  • An information processing apparatus comprising: (24) Computer system Obtaining a detection result of the sound included in the collected sound; Before presenting information based on at least the result of speech recognition processing for the speech, causing the predetermined output unit to notify the notification information based on the detection result of the speech; Including an information processing method.
  • (25) Computer system Transmitting a sound collection result of sound by a predetermined sound collection unit to an external device; Informing the notification information before presenting the information based on the result of the speech recognition process for the sound transmitted from the external device based on the detection result of the sound included in the sound; Including an information processing method.

Abstract

【課題】音声を入力としたユーザインタフェースの操作性をより向上させる。 【解決手段】音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、を備える、情報処理装置

Description

情報処理装置及び情報処理方法
 本開示は、情報処理装置及び情報処理方法に関する。
 PC(Personal Computer)やゲーム機器等のような所謂情報処理装置の動作を制御するために、ユーザからの入力を取得するための入力インタフェースとして多様な方式のものが提案されている。特に近年では、所謂音声認識技術や自然言語処理技術の発展に伴い、各種情報処理装置に対して、ユーザが音声により各種情報を入力可能としたユーザインタフェース(UI:User Interface)が普及してきている。例えば、特許文献1には、所謂音声認識技術を利用した仕組みの一例が開示されている。
 上述したような音声認識技術や自然言語処理技術を応用することで、例えば、ユーザが入力した音声を所謂文字情報に変換して提示することが可能となる。また、このように音声が変換された文字情報は、例えば、当該文字情報の意味内容を認識することで、各種制御への入力として応用することも可能となる。
特開2004-294946号公報
 ところで、音声を入力として使用することが可能なユーザインタフェースは、ウェラブル端末等のような所謂入力インタフェースが制限された情報処理装置への応用も可能であり、その利用用途は多岐にわたる。このような状況から、特に近年では、音声を入力としたユーザインタフェースの操作性の向上が望まれている。
 そこで、本開示では、音声を入力としたユーザインタフェースの操作性をより向上させることが可能な、情報処理装置及び情報処理方法を提案する。
 本開示によれば、音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、を備える、情報処理装置が提供される。
 また、本開示によれば、所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信する送信部と、外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示する出力部と、を備える、情報処理装置が提供される。
 また、本開示によれば、コンピュータシステムが、音声の集音に関する期間におけるコンテキスト情報を取得することと、取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させることと、を含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータシステムが、所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信することと、外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示することと、を含む、情報処理方法が提供される。
 また、本開示によれば、集音された音響に含まれる音声の検知結果を取得する取得部と、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させる制御部と、を備える、情報処理装置が提供される。
 また、本開示によれば、所定の集音部による音響の集音結果を外部装置に送信する送信部と、少なくとも外部装置から送信される、前記音響に含まれる音声に対する音声認識処理の結果に基づく情報の提示前に、前記音響に含まれる音声の検知結果に応じた制御に基づき、報知情報を報知する出力部と、を備える、情報処理装置が提供される。
 また、本開示によれば、コンピュータシステムが、集音された音響に含まれる音声の検知結果を取得することと、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させることと、を含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータシステムが、所定の集音部による音響の集音結果を外部装置に送信することと、前記音響に含まれる音声の検知結果に基づき、少なくとも外部装置から送信される前記音声に対する音声認識処理の結果に基づく情報の提示前に、報知情報を報知することと、を含む、情報処理方法が提供される。
 以上説明したように本開示によれば、音声を入力としたユーザインタフェースの操作性をより向上させることが可能な、情報処理装置及び情報処理方法が提供される。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理システムの概略的なシステム構成の一例について説明するための説明図である。 本開示の一実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。 本開示の第1の実施形態に係る情報処理システムの概要について説明するための説明図である。 同実施形態に係る情報処理システムの概要について説明するための説明図である。 同実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。 変形例1-2に係る情報処理システムの概要について説明するための説明図である。 本開示の第2の実施形態に係る情報処理システムの概要について説明するための説明図である。 同実施形態に係る情報処理システムが提供するUIの一例について説明するための説明図である。 同実施形態に係る情報処理システムの動作の詳細について説明するための説明図である。 同実施形態に係る情報処理システムの動作の詳細について説明するための説明図である。 同実施形態に係る情報処理システムの一連の処理の流れの一例について示したフローチャートである。 変形例2-1に係る情報処理システムの概要について説明するための説明図である。 変形例2-2に係る情報処理システムの概要について説明するための説明図である。 本開示の第3の実施形態に係る情報処理システムの概要について説明するための説明図である。 同実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。 変形例3-1に係る情報処理システムの概要について説明するための説明図であり、報知情報の一例について示している。 変形例3-2に係る情報処理システムが提供するUIの一例について説明するための説明図である。 変形例3-2に係る情報処理システムが提供するUIの他の一例について説明するための説明図である。 本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一例を示す機能ブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.構成
  1.1.システム構成
  1.2.機能構成
 2.第1の実施形態
  2.1.概要
  2.2.処理
  2.3.変形例
   2.3.1.変形例1-1:コンテキスト情報に応じた制御の一例
   2.3.2.変形例1-2:コンテキスト情報に情報の提示態様の一例
   2.3.3.変形例1-3:その他の適用例
  2.4.評価
 3.第2の実施形態
  3.1.概要
  3.2.基本原理
  3.3.処理
  3.4.変形例
   3.4.1.変形例2-1:表示制御の一例
   3.4.2.変形例2-2:英語の音声を認識する場合の制御例
   3.4.3.変形例2-3:その他の制御例
  3.5.評価
 4.第3の実施形態
  4.1.概要
  4.2.処理
  4.3.変形例
   4.3.1.変形例3-1:報知情報の一例
   4.3.2.変形例3-2:音声の認識状態の提示例
  4.4.評価
 5.ハードウェア構成
 6.適用例
 7.むすび
 <<1.構成>>
  <1.1.システム構成>
 まず、図1を参照して、本開示の一実施形態に係る情報処理システムの概略的な構成について説明する。図1は、本実施形態に係る情報処理システムの概略的なシステム構成の一例について説明するための説明図である。
 図1に示すように、本実施形態に係る情報処理システムは、情報処理装置10と、入出力装置30とを含む。情報処理装置10と入出力装置30とは、所定のネットワークN1を介して互いに情報を送受信可能に構成されている。なお、ネットワークN1の種別は特に限定されない。具体的な一例として、当該ネットワークN1は、Wi-Fi(登録商標)規格に基づくネットワークのような、所謂無線のネットワークにより構成されていてもよい。また、他の一例として、当該ネットワークN1は、インターネット、専用線、LAN(Local Area Network)、または、WAN(Wide Area Network)等により構成されていてもよい。また、当該ネットワークN1は、複数のネットワークを含んでもよく、一部が有線のネットワークとして構成されていてもよい。
 入出力装置30は、各種入力情報の取得や、当該入出力装置30を保持するユーザUaに対する各種出力情報の提示を行うための構成である。特に、本実施形態に係る入出力装置30は、例えば、所謂マイクロフォン等のような集音部を備え、ユーザUaの音声を集音可能に構成されている。例えば、入出力装置30は、当該集音部により集音した音声(音響)を、ネットワークN1を介して情報処理装置10に送信してもよい。また、入出力装置30は、所謂液晶ディスプレイや有機ELディスプレイ等のような表示部や、所謂スピーカ等のような音響出力部等の各種出力部を備え、当該出力部を介して情報を出力可能に構成されていてもよい。
 このような構成に基づき、入出力装置30は、情報処理装置10に対して送信した音声を入力とした処理の結果を示す出力情報を当該情報処理装置10からネットワークN1を介して取得し、出力部を介して取得した出力情報をユーザUaに提示してもよい。より具体的な一例として、入出力装置30は、当該音声が変換された文字情報を情報処理装置10から取得し、取得した当該文字情報を表示部に表示させることで、当該文字情報をユーザUaに視認可能に提示してもよい。また、他の一例として、入出力装置30は、情報処理装置10から取得した文字情報をTTS(Text to speech)等の技術に基づき音声に変換し、変換された当該音声を音響出力部に出力させることで、当該音声(即ち、文字情報が変換された音声)をユーザUaに聴取可能に提示してもよい。
 また、入出力装置30は、各種状態や状況を直接的または間接的に示すコンテキスト情報を取得可能に構成されていてもよい。この場合には、入出力装置30は、取得したコンテキスト情報を情報処理装置10に送信してもよい。これにより、情報処理装置10は、入出力装置30から取得したコンテキスト情報に基づき、当該状態や状況を認識することが可能となる。
 なお、コンテキスト情報としては、例えば、入出力装置30の外部環境(ひいては、ユーザUaの外部環境)の状態を示す情報が挙げられる。具体的な一例として、入出力装置30は、外部環境の音響を集音する集音部から、周囲の雑音の集音結果を取得することで、当該雑音の影響(例えば、雑音の音量や、信号対雑音比(SNR:(signal-to-noise ratio)等)を示す情報をコンテキスト情報として取得してもよい。
 また、コンテキスト情報としては、発話時のユーザ(発話者)の状態や、当該ユーザが置かれた状況に関する情報が挙げられる。例えば、ユーザが、入出力装置30を介して他のユーザとコミュニケーションをとっている状況下では、当該コミュニケーションの相手に関する情報(例えば、発話者との関係を示す情報等)がコンテキスト情報として取得されてもよい。この場合には、例えば、入出力装置30は、通信を確立した外部装置の情報に基づき、コミュニケーションの相手に関する情報を特定してもよい。
 また、各種入力デバイスへの情報の入力状況に関する情報がコンテキスト情報として取得されてもよい。例えば、キーボードやコントローラ等の入力デバイスに対する操作の頻度から、当該入力デバイスを操作するユーザの状態や、当該ユーザが置かれている状況を推定することも可能である。
 また、コンテキスト情報としては、入出力装置30の状態を示す情報が取得されてもよい。具体的な一例として、入出力装置30が実行中のアプリケーションに関する情報が挙げられる。このようなコンテキスト情報から、例えば、入出力装置30を操作するユーザの状態や、当該ユーザが置かれている状況を推定することも可能である。
 また、入出力装置30は、各種センサ等の検知部によるユーザの体温、呼吸、心拍、及び発汗量等の生体情報の検出結果を、当該ユーザの状態を示すコンテキスト情報として取得してもよい。
 また、コンテキスト情報として、音声の発話速度や音量等のように、発話の態様に関する情報が取得されてもよい。例えば、入出力装置30は、音声の集音結果に基づき、発話速度や音量等を認識してもよい。また、集音された音声の音質に基づき、当該音声を発話したユーザの属性(例えば、性別や年齢)を示す情報(即ち、誰が発話している状況かを示す情報)をコンテキスト情報として取得することも可能である。また、音声の集音結果に基づき、当該音声の発話に係る長さに関する情報や、当該音声が変換された文字情報の長さ(即ち、ユーザが発話した文字列の長さ)に関する情報のような、入力情報の状態(換言すると、情報の入力状況)に関する情報を、コンテキスト情報として取得することも可能である。もちろん、音声に限らず、他の入力情報について各種状態や状況を示す情報が取得されてもよい。具体的な一例として、キーボードやコントローラ等の入力デバイスに対する情報の入力速度を示す情報や、入力の強さ(例えば、圧力)を示す情報が、コンテキスト情報として取得されてもよい。また、入出力装置30は、音声の集音結果は、上述した各種状態や状況を示す情報を間接的に取得するためのコンテキスト情報として取得してもよい。
 なお、入出力装置30が上記コンテキスト情報を取得するタイミングンは特に限定されない。例えば、入出力装置30は、ユーザが発話した場合(換言すると、音声を集音する場合)に、コンテキスト情報を取得してもよい。より具体的な一例として、入出力装置30は、所謂PTT(Push to Talk)のように、所定の操作に基づきユーザが発話した音声の集音を開始する場合には、当該操作の検出に基づきコンテキスト情報を取得してもよい。このような構成により、入出力装置30は、ユーザが発話を開始したタイミング(即ち、音声の集音を開始したタイミング)における各種状態や状況に関するコンテキスト情報を取得することが可能となる。また、入出力装置30は、ユーザの発話を検出している期間中(即ち、音声の集音を継続している期間中)は、逐次コンテキスト情報を取得してもよい。
 また、入出力装置30は、ユーザが発話を開始した場合(換言すると、音声の集音を開始した場合)に、当該発話の開始直前の状態または状況に関するコンテキスト情報を取得してもよい。具体的な一例として、ユーザが発話を開始する直前の期間における、当該ユーザによる他の入力デバイスへの操作状況を示すコンテキスト情報から、発話時における当該ユーザの状態や、当該ユーザが置かれた状況を推測することも可能である。このような場合には、例えば、入出力装置30は、所定の状態や状況を逐次監視し、所定のイベント(例えば、ユーザによる発話の開始)の検出をトリガとして、当該イベントの検出タイミングの前後の期間における監視結果に基づき、当該期間におけるコンテキスト情報を取得してもよい。このような構成により、入出力装置30は、例えば、ユーザの発話の開始を検出した場合に、当該発話の開始前後数秒(例えば、10秒程度)の期間における各種状態や状況に関する情報を、当該発話の期間に関するコンテキスト情報として取得することが可能となる。
 なお、本開示では、「音声の集音に関する期間」と記載した場合には、当該音声を集音する期間のみに限らず、当該音声の集音を開始する直前の期間も含み得るものとする。同様に、「発話に関する期間」と記載した場合には、音声の発話期間のみに限らず、当該音声が発話される直前の期間も含み得るものとする。なお、一般的には、音声の集音開始前後の10秒程度の期間におけるコンテキスト情報を取得できれば、当該音声を発話したユーザの状態や、当該ユーザが置かれている状況を推定することが可能である。もちろん、ユースケースに応じて、コンテキスト情報の取得対象とする期間を変更してもよいことは言うまでもない。
 続いて、情報処理装置10について説明する。情報処理装置10は、入出力装置30から音声(音響)の集音結果を取得し、取得した音声を入力情報として各種処理を実行する。具体的には、情報処理装置10は、入出力装置30から音響の集音結果を取得した場合には、当該音響に含まれる音声を検出してもよいし、当該検出結果に基づき当該音響から音声を抽出してもよい。また、情報処理装置10は、取得した音声に対して音声認識処理(所謂音響解析)を施すことで当該音声を文字情報に変換してもよい。また、このとき情報処理装置10は、形態素解析、構文解析、及び意味解析等の自然言語処理(所謂言語解析)に基づき、音声が変換された文字情報を、意味内容を考慮した文字情報(例えば、漢字かな交じりの文章等)に変換してもよい。また、情報処理装置10は、音声が変換された文字情報の意味内容を認識することで、当該音声により指示された機能を実行してもよい。
 また、情報処理装置10は、音声の集音結果を入力情報とした各種処理の実行結果を、ネットワークN1を介して入出力装置30に送信してもよい。具体的な一例として、情報処理装置10は、音響の集音結果から音声を検出した場合に、当該検出結果を入出力装置30に通知してもよい。また、情報処理装置10は、音声の集音結果に対する音声認識処理や自然言語処理の結果に基づき、当該音声が変換された文字情報を入出力装置30に送信してもよい。また、このとき情報処理装置10は、入出力装置30の動作を制御することで、当該入出力装置30に音声が変換された文字情報を所定の出力部を介して出力させてもよい。
 また、情報処理装置10は、入出力装置30から上述したコンテキスト情報を取得してもよい。これにより情報処理装置10は、入出力装置30の周囲の環境の状態や、当該入出力装置30を保持するユーザの状態等のような各種状態や状況を認識することが可能となる。また、この場合には、情報処理装置10は、各種状態や状況の認識結果に応じて、各種処理を制御してもよい。具体的な一例として、情報処理装置10は、音声が変換された文字情報の提示態様を、取得したコンテキスト情報に応じて(即ち、当該コンテキスト情報が示す状態や状況に応じて)制御してもよい。
 なお、上記に説明したシステム構成はあくまで一例であり、必ずしも図1に示す例のみには限定されない。具体的な一例として、情報処理装置10が、互いに連携する複数の装置(例えば、サーバ等)により構成されていてもよい。また、他の一例として、情報処理装置10と入出力装置30とが一体的に構成されていてもよい。
 以上、図1を参照して、本開示の一実施形態に係る情報処理システムの概略的な構成について説明した。なお、以降の説明では、本開示に係る情報処理システムの各種実施形態についてそれぞれ説明する。
  <1.2.機能構成>
 続いて、図2を参照して、本開示の一実施形態に係る情報処理システムの機能構成の一例について、特に、図1に示した情報処理装置10及び入出力装置30の構成に着目して説明する。図2は、本開示の一実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。なお、本説明では、以降に説明する各実施形態に係る情報処理システムそれぞれにおいて共通の部分に着目して、情報処理装置10及び入出力装置30の機能構成について説明し、各実施形態に特有の構成や動作等については別途後述する。
 また、図2に示す例では、情報処理装置10及び入出力装置30の構成をよりわかりやすくするために、当該情報処理装置10及び入出力装置30がネットワークを介して情報を送受信するための通信部の図示を省略している。なお、当該通信部の構成は、ネットワークの種別に応じて適宜変更されてもよい。例えば、当該ネットワークが、無線のネットワークの場合には、通信部は、ベースバンド(BB)プロセッサやRF回路等を含んでもよい。なお、以降の説明では、情報処理装置10及び入出力装置30それぞれの内部の各構成が、ネットワークを介して外部装置と情報の送受信を行う場合には、特に説明が無い場合においても、当該通信部を介して情報の送受信を行うものとする。
 まず、入出力装置30の構成について説明する。図2に示すように、入出力装置30は、入力部310と、出力部330とを含む。入力部310は、例えば、集音部311と、検知部313とを含む。また、入力部310は、操作部315含んでもよい。また、出力部330は、例えば、表示部331を含む。また、出力部330は、音響出力部333を含んでもよい。
 集音部311は、所謂マイクロフォン等の集音デバイスにより構成され、ユーザの音声等のような音響を集音する。集音部311による音響の集音結果に基づく音響信号は、例えば、ネットワークを介して情報処理装置10に送信される。
 検知部313は、各種状態や状況を示すコンテキスト情報を取得するための構成である。例えば、検知部313は、各種センサを含み、当該センサにより周囲の環境の状態を示す情報をコンテキスト情報として取得してもよい。また、検知部313は、外部環境の音響を集音する集音部を備え、当該集音部による集音結果を、雑音の影響を示すコンテキスト情報として取得してもよい。また、検知部313は、入出力装置30の外部に設けられた各種デバイスからコンテキスト情報を取得してもよい。具体的な一例として、検知部313は、ユーザの身体に設置された各種センサから、当該ユーザの生体情報を示すコンテキスト情報を取得してもよい。なお、検知部313により取得されたコンテキスト情報は、例えば、ネットワークを介して情報処理装置10に送信される。
 操作部315は、ユーザからの入力操作を受け付けるための構成であり、例えば、ボタン、タッチパネル、または所謂ポインティングデバイス等のような入力デバイスにより構成される。例えば、後述する表示部331を介して提示された表示情報のうち、一部の表示情報の選択は、当該操作部315を介した操作に基づき行われてもよい。即ち、入出力装置30は、操作部315に対するユーザからの入力操作の内容に基づき、操作対象(即ち、選択対象)を認識すればよい。また、所謂PTT等のように音声の集音を開始するための操作が、当該操作部315を介して行われてもよい。
 表示部331は、所謂液晶ディスプレイや有機ELディスプレイ等のような表示デバイスにより構成され、各種表示情報を表示することでユーザに対して情報を提示する。例えば、表示部331は、情報処理装置10から送信される出力情報を、表示情報として表示することで、当該出力情報をユーザに提示する。また、このとき表示部331は、情報処理装置10から送信される出力情報を、当該情報処理装置10により指定された態様で表示情報として表示してもよい。
 音響出力部333は、所謂スピーカ等の音響デバイスにより構成され、音声等の音響を出力することでユーザに対して情報を提示する。例えば、表示部331は、情報処理装置10から送信される音声や音響として構成された出力情報を出力することで、当該出力情報をユーザに提示する。また、音響出力部333は、情報処理装置10から送信される文字情報として構成された出力情報がTTS(Text to speech)等の技術に基づき変換された音声を出力することで、当該出力情報を音声としてユーザに提示してもよい。
 なお、上述した入力部310及び出力部330に含まれる構成はあくまで一例であり、入出力装置30の利用用途に応じて、上述した構成以外の他の構成が含まれてもよい。
 続いて、情報処理装置10の構成について説明する。図2に示すように、情報処理装置10は、音響解析部101と、言語解析部107と、コンテキスト解析部109と、出力制御部111とを含む。
 コンテキスト解析部109は、入出力装置30からコンテキスト情報を取得し、取得したコンテキスト情報を解析することで各種状態や状況を認識する。具体的な一例として、コンテキスト解析部109は、入出力装置30の周囲の環境における音響の集音結果を、コンテキスト情報として取得してもよい。この場合には、例えば、コンテキスト解析部109は、当該集音結果に基づき、音声の集音環境における雑音の影響の大きさ(例えば、雑音の音量等)を認識してもよい。
 一般的には、騒音レベルが60dB以上の場合には、うるさいと感じられる傾向にある。なお、「普通の会話」、「チャイム」、「時速40キロで走る自動車の内部」の音量が、約60dBに相当する。また、騒音レベルが80dB以上の場合には、極めてうるさいと感じられる傾向にある。なお、「地下鉄の車内(窓を開けた場合)」、「ピアノの音」の音量が、約80dBに相当する。そのため、例えば、コンテキスト解析部109は、雑音の音量が60dB以上の場合に、雑音の影響が大きい(即ち、うるさい環境である)環境であると認識してもよい。
 また、他の一例として、コンテキスト解析部109は、ユーザが発話した音声の集音結果に基づく音響信号を、コンテキスト情報として取得してもよい。この場合には、例えば、コンテキスト解析部109は、当該音響信号に対する音響解析(例えば、音声認識処理)の結果に基づき、発話速度、音声の音量、音声の音質等を認識してもよい。また、コンテキスト解析部109は、発話速度、音声の音量、音声の音質等の認識結果に基づき、他の状態や状況を推定してもよい。具体的な一例として、音声の音質等からは、発話したユーザの年齢や性別等を推定することも可能である。なお、コンテキスト解析部109は、当該音響信号に対する音響解析の結果を、音響解析部101から取得してもよい。
 また、他の一例として、コンテキスト解析部109は、ユーザが発話した音声の集音結果に基づく音響信号に対する音響解析や言語解析の結果を、コンテキスト情報として取得してもよい。この場合には、例えば、コンテキスト解析部109は、当該音響信号に対する音響解析や言語解析の結果に基づき、ユーザが発話した音声の長さや、ユーザが発話した文字列の長さ(即ち、音声が変換された文字情報の長さ)等を認識してもよい。
 もちろん上記に説明した例はあくまで一例であることは言うまでもない。前述したように、コンテキスト解析部109は、取得されるコンテキスト情報に応じて、上記に説明した例以外にも、他の状態や状況を認識または推定することが可能である。
 以上のようにして、コンテキスト解析部109は、取得したコンテキスト情報に基づき各種状態や状況を認識し、認識結果を示す情報を出力制御部111に出力する。また、コンテキスト解析部109は、各種状態や状況の認識結果を示す情報を、音響解析部101及び言語解析部107に出力してもよい。
 音響解析部101は、入出力装置30の入力部310(集音部311)による音響の集音結果に基づく音響信号を取得し、取得した音響信号に対して音響解析処理を施すことで、当該音響信号に含まれる音声の抽出や、当該音声の認識に係る処理を実行する。図2に示すように、音響解析部101は、例えば、音声検出部103と、音声認識処理部105とを含む。
 音声検出部103は、取得された音響信号から音声を抽出するための構成である。音声検出部103は、VAD(Voice Activity Detection)等の技術に基づき音響信号に含まれる音声信号を抽出する。そして、音声検出部103は、音響信号から抽出された音声信号を音声認識処理部105に出力する。また、音声検出部103は、音響信号に含まれる音声信号を検知した場合に、検知結果を示す情報を出力制御部111に通知してもよい。
 音声認識処理部105は、音声検出部103により音響信号から抽出された音声信号に対して所謂音声認識処理を施すことで、当該音声信号を、音声の発音を示す文字情報に変換する。具体的な一例として、音声認識処理部105は、日本語の音声の集音結果に基づく音声信号を、発話内容を示すひらがなやカタカナの文字情報に変換する。そして、音声認識処理部105は、音声認識処理の結果を示す情報(例えば、音声の発音を示す文字情報)を言語解析部107に出力する。また、音声認識処理部105は、音声認識処理の結果を示す情報を出力制御部111に出力してもよい。
 音声認識処理部105は、コンテキスト解析部109から、各種状態や状況の認識結果を示す情報を取得し、取得した当該情報が示す状態や状況に応じて、上述した音声認識処理を制御してもよい。具体的な一例として、音声認識処理部105は、取得した情報が示す状態や状況に応じて、音声認識処理の対象とする音声信号の範囲を制御してもよい。また、音声認識処理部105は、取得した情報が示す状態や状況に応じて、音声の音響的な特徴(以降では、「音響モデル」とも称する)に基づき、当該音声に対して音声認識処理を施す際の探索範囲(例えば、参照するパターンや、適用する条件等)を制御してもよい。なお、同制御の詳細については別途後述する。
 言語解析部107は、音声認識処理部105から音声認識処理の結果を取得し、当該音声認識処理の結果として得られた文字情報に対して、所謂言語解析処理(自然言語処理)を施すことで、当該文字情報を、意味内容を考慮した文字情報に変換する。
 具体的な一例として、言語解析部107は、取得された文字情報に対して形態素解析や構文解析を施すことで、当該文字情報を形態素に切り分け、切り分けられた形態素間の関連性(例えば、修飾関係等)を認識する。また、言語解析部107は、例えば、形態素解析や構文解析の結果に対して、辞書データ等に基づく意味解析を施すことで、取得された文字情報(例えば、文章)が示す意味内容を認識し、当該文字情報を、意味内容を考慮した文字情報(例えば、日本語における漢字かな交じり文章等)に変換する。
 なお、言語解析部107は、コンテキスト解析部109から、各種状態や状況の認識結果を示す情報を取得し、取得した当該情報が示す状態や状況に応じて、上述した言語解析処理を制御してもよい。具体的な一例として、言語解析部107は、取得した情報が示す状態や状況に応じて、言語解析処理における処理対象となる文字情報の探索範囲を制御してもよい。また、言語解析部107は、取得した情報が示す状態や状況に応じて、音声の言語的な特徴(以降では、「言語モデル」とも称する)に基づき、当該音声に対する音声認識処理の結果に対して言語解析処理を施す際の探索範囲(例えば、参照するパターンや、適用する条件等)を制御してもよい。なお、同制御の詳細については別途後述する。
 そして、言語解析部107は、言語解析処理の結果を示す情報(例えば、音声の発音を示す文字情報から、意味内容を考慮した文字情報への変換結果を示す情報)を出力制御部111に出力する。
 出力制御部111は、言語解析処理の結果を示す情報として、例えば、音声が意味内容を考慮して変換された文字情報を取得する。このとき、出力制御部111は、取得した当該文字情報を入出力装置30に提示させてもよい。これにより、入出力装置30を保持するユーザは、当該入出力装置30の出力部330(例えば、表示部331)を介して自身が発話した音声の認識結果を確認することが可能となる。
 また、出力制御部111は、コンテキスト解析部109から、取得されたコンテキスト情報に基づく各種状態や状況の認識結果を示す情報を取得し、当該認識結果に応じて、提示対象となる音声が変換された文字情報の態様を制御してもよい。具体的な一例として、出力制御部111は、取得した情報が示す状態や状況に応じて、提示対象となる文字情報のうち少なくとも一部の語句が、当該語句の発音を示す文字情報として提示されるように制御してもよい。なお、本制御の詳細については別途後述する。
 また、出力制御部111は、音声が変換された文字情報を入出力装置30に提示させる際に、集音された当該音声が文字情報に変換されるまでの音響解析や言語解析の状態に応じて、各種情報を段階的に入出力装置30に提示させてもよい。具体的な一例として、出力制御部111は、音響解析部101から、音響信号に含まれる音声の検知結果を示す通知を受けて、当該通知を受けたタイミングに応じて、報知情報を入出力装置30に提示させてもよい。次いで、出力制御部111は、音響解析部101から、当該音響信号から抽出された音声信号に対する音声認識処理の結果を示す情報を取得し、当該情報を取得したタイミングに応じて、当該音声認識処理の結果に基づく出力情報を入出力装置30に提示させてもよい。次いで、出力制御部111は、言語解析部107から、当該音声認識処理の結果に対する言語解析処理の結果を示す情報を取得し、当該情報を取得したタイミングに応じて、当該言語解析処理の結果に基づく出力情報を入出力装置30に提示させてもよい。なお、本制御の詳細については別途後述する。
 なお、図2に示した情報処理システムの機能構成はあくまで一例であり、上述した各構成の機能を実現することが可能であれば、当該情報処理システムの機能構成は必ずしも図2に示す例のみには限定されない。例えば、情報処理装置10の一部の構成が、当該情報処理装置10の外部に設けられていてもよい。具体的な一例として、出力制御部111に相当する構成が、入出力装置30側に設けられていてもよい。この場合には、入出力装置30は、音響信号に含まれる音声の検知結果、当該音声に対する音声認識処理の結果、音声認識処理の結果に対する言語解析処理の結果、及びコンテキスト情報に基づく各種状態や状況の認識結果を示す情報等を、情報処理装置10から取得すればよい。また、入力部310及び出力部330に含まれる各構成のうち少なくとも一部の構成が、入出力装置30の外部に設けられていてもよい。また、前述したように、入出力装置30と情報処理装置10とが一体的に構成されていてもよい。
 以上、図2を参照して、本開示の一実施形態に係る情報処理システムの機能構成の一例について、特に、図1に示した情報処理装置10及び入出力装置30の構成に着目して説明した。なお、以降の説明では、本開示に係る情報処理システムの各種実施形態についてそれぞれ説明する。
 <<2.第1の実施形態>>
  <2.1.概要>
 まず、本開示の第1の実施形態に係る情報処理システムについて説明する。前述したように、音声認識技術や自然言語処理技術を応用することで、例えば、ユーザは、キーボード等の入力デバイスを介することなく、音声により文字情報を入力することが可能となる。
 一方で、音声認識処理や自然言語処理の精度が必ずしも高いとは限らず、音声が誤って認識される場合が想定され得る。例えば、ユーザが発話した音声を認識するシステム(以降では、「音声認識システム」とも称する)は、発話された音声に対する応答速度(即ち、処理速度)を向上させるために、音声認識処理や自然言語処理の探索範囲を制限する場合がある。しかしながら、音声認識処理や自然言語処理の探索範囲が制限されると、当該音声認識処理や自然言語処理の精度(即ち、音声の認識に係る処理の精度)が低下し、ひいては音声の認識に失敗する場合も想定され得る。
 これに対して、「明瞭に話す」、「大きな音量で話す」、「余計な言葉を発話しない」等の発話の工夫により認識の精度を向上させることが可能な場合もある。しかしながら、各音声認識システムにとって最良の発話のしかた(即ち、発話の工夫)をユーザが認識することは困難であることが多い。そのため、音声認識処理や自然言語処理に基づく音声の認識は、認識精度が上がりにくい傾向にある。
 また、他の方法として、音声認識処理や自然言語処理の探索範囲を制限しないことで、音声の認識に係る処理の精度を向上させることも可能である。しかしながら、この場合には、当該音声認識処理や自然言語処理の処理量が増えるため、処理速度が低下し、ひいては音声の発話に対する応答速度が低下することとなる。即ち、応答速度の向上と、認識精度の向上とは二律背反の関係となる傾向が高い。
 ところで、音声認識システムが利用されるシーンやユースケースに応じて、当該システムに求められる特性が異なる場合がある。例えば、あるシーンでは、発話に対してより早いレスポンス(即ち、応答速度)が求められる場合がある。また、他のシーンでは、応答速度よりもより高い認識精度が求められる場合もある。
 このような状況を鑑み、本実施形態に係る情報処理システムは、音声の集音に関する期間における各種状態や状況(換言すると、コンテキスト情報)に応じて、音声が変換された文字情報の提示態様を制御する。具体的な一例として、本実施形態に係る情報処理システムは、音声の集音に関する期間に取得したコンテキスト情報に応じて、応答速度と認識精度とのいずれを重視すべきかを判断し、判断結果に応じて態様で、集音された音声の文字情報への変換や、当該文字情報の提示を行う。
 ここで、図3及び図4を参照して、本実施形態に係る情報処理システムの概要について具体的な例を挙げて説明する。図3及び図4は、本実施形態に係る情報処理システムの概要について説明するための説明図であり、ユーザがゲームをプレイしながら音声により情報を入力する場合における、システムからの音声の認識結果のフィードバックの一例を示している。
 例えば、図3は、一般的な音声認識システムによる音声の認識結果のフィードバックの一例を示している。なお、以降では、図3に示す例を「比較例」と称する場合がある。図3において、参照符号V100aは、ユーザが発話を開始したタイミングにおけるゲーム画面の状態を模式的に示している。また、参照符号V100bは、ユーザにより発話された音声の認識結果が提示されたタイミングにおけるゲーム画面の状態を模式的に示している。なお、ゲーム画面V100a及びV100bを特に区別しない場合には、単に「ゲーム画面V100」と称する場合がある。また、参照符号V111、V113、及びV115は、ゲーム画面V100に表示される表示情報の一例である。例えば、参照符号V111は、システムがユーザに対してゲーム内の状況を報知するための出力フィールドである。また、参照符号V113は、ユーザが発話した音声の認識結果を提示するための出力フィールドである。また、参照符号V115は、音声(音響)の集音状況をユーザに報知するための表示情報(例えば、アイコン等)である。
 例えば、ユーザが、ゲームをプレイしながら出力フィールドV111に提示された情報を確認し、システムに対してコントローラに設けられた集音部を介して音声を発話することで情報を入力したものとする。この場合には、システムは、例えば、図3の中央の図に示すように、ユーザが発話した音声の集音状況を表示情報V115の表示態様を変化させながらリアルタイムで提示し、当該音声の認識に係る処理が完了すると、認識結果を示す情報を出力フィールドV115に提示する。例えば、図3に示す例では、システムは、ユーザが発話した音声を文字情報に変換し、当該文字情報を音声の認識結果として出力フィールドV113に提示している。
 一方で、例えば、ゲームのプレイに集中している状況下では、当該ユーザは、ゲームのプレイ画面以外の情報に対する注意力が低くなる傾向にある。そのため、例えば、周辺視野により表示情報V115の変化(即ち、音声の認識状況)を確認できたとして、出力フィールドV113に提示される音声の認識結果を確認することが困難な状況が想定され得る。一方で、あまりゲームのプレイに集中していない状況下では、ユーザは、ゲームのプレイ画面外の情報に対する注意力が、ゲームのプレイに集中している状況下に比べて高くなる傾向にある。そのため、このような状況下では、ユーザは、出力フィールドV113に提示される音声の認識結果を、余裕を持って確認できる場合が多い。本実施形態に係る情報処理システムは、このような状態や状況の変化を認識し、当該状態や状況の認識結果に応じて、音声の認識に係る処理や当該認識結果の提示に係る処理として、例えば、応答速度をより重視した処理と、認識精度をより重視した処理とを動的に切り替える。
 例えば、図4は、本実施形態に係る情報処理システムによる音声の認識結果のフィードバックの一例を示している。図4において、参照符号V100cは、ユーザが発話を開始したタイミングにおけるゲーム画面の状態を模式的に示している。また、参照符号V100dは、ユーザにより発話された音声の認識結果が提示されたタイミングにおけるゲーム画面の状態を模式的に示している。なお、図4において、図3と同様の符号が付された対象は、当該図3に示す例と同様の対象を示すものとする。
 より具体的な一例として、本実施形態に係る情報処理システムは、ユーザの発話速度に応じて、音声の認識に係る処理や当該認識結果の提示に係る処理を動的に切り替えてもよい。例えば、ヒトは、ある作業により集中している状況下では、発話速度が遅くなる傾向にある。これに対して、ヒトは、集中して発話可能な状況下においては、発話速度が遅くならない傾向にある。このような特性を利用し、情報処理システムは、例えば、ユーザの発話速度を示すコンテキスト情報に基づき、ユーザの発話速度が普段の発話速度のよりも低いことを認識した場合には、当該ユーザが何らかの作業に集中している状態にあるものと認識する。このような場合には、情報処理システムは、例えば、発話された音声に対する音声認識処理や自然言語処理の探索範囲がより広くなるように制御することで、当該音声の認識精度をより向上させる。また、このとき情報処理システムは、例えば、図4に示すように、音声の認識精度がより向上するように音声認識処理や自然言語処理の探索範囲を制御していることを、表示情報V115の表示態様を変えることでユーザに提示してもよい。なお、表示情報V115のように、音声の集音状況や、音声認識処理や自然言語処理の制御内容(例えば、探索範囲の制御状況)等を通知するための情報が、「音声の集音に関連する出力情報」の一例に相当する。
 以上のように、本実施形態に係る情報処理システムは、音声の集音に関する期間における各種状態や状況(例えば、発話の態様)に応じて、音声の認識結果(例えば、音声が変換された文字情報)の提示態様を動的に制御する。このような構成により、例えば、ユーザがある作業に集中しており、発話した音声の認識結果を確認することが困難な状況下では、音声の認識精度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、認識結果の確認を意識せずに当該作業に集中することが可能となる。また、他の一例として、ユーザが特定の作業に注意力を注ぐ必要がなく、余裕をもって音声の認識結果を確認することが可能な状況下では、応答速度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、自身が発話した音声の認識結果を速やかに確認することが可能となる。
 以上、図3及び図4を参照して、本開示の第1の実施形態に係る情報処理システムの概要について説明した。なお、以降では、本実施形態に係る情報処理システムについてより詳しく説明する。
  <2.2.処理>
 まず、図5を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明する。図5は、本実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。
 入出力装置30(例えば、検知部313)は、所定の状態や状況(例えば、発話の態様)を示すコンテキスト情報を取得し、取得したコンテキスト情報を情報処理装置10に送信する(S101)。また、入出力装置30(集音部311)は、所定のイベント(例えば、PTTにおける発話のための操作等)を検知すると、ユーザが発話した音声を集音し、当該音声の集音結果に基づく音響信号を情報処理装置10に送信する(S103)。
 情報処理装置10(コンテキスト解析部109)は、入出力装置30からコンテキスト情報を取得し、取得したコンテキスト情報を解析することで、音声の集音に関する期間における所定の状態や状況を認識する。そして、情報処理装置10は、認識した当該状態や状況に応じて、音声の認識に係る処理や、当該音声の認識結果の提示に係る処理を実行するための動作モードを選択する(S105)。なお、本説明では、情報処理装置10は、音声の認識精度をより重視するモード(精度重視のモード)と、当該音声の認識結果の応答速度をより重視するモード(速度重視のモード)とを切り替えるものとして説明する。
 例えば、精度重視のモードを選択した場合には(S107、YES)、情報処理装置10(出力制御部111)は、精度重視のモードが選択されたことを示す情報を入出力装置30に提示させる。具体的な一例として、情報処理装置10は、入出力装置30に提示させる所定の出力情報の提示態様が、選択した精度重視のモードに対応する態様となるように制御する(S109)。また、この場合には、情報処理装置10(例えば、音響解析部101及び言語解析部107)は、音声に対して音声認識処理を施す際の探索範囲や、当該音声に対する音声認識処理の結果に対して言語解析処理を施す際の探索範囲が狭めずに各処理を実行する(S111)。
 また、速度重視のモードを選択した場合には(S107、NO)、情報処理装置10(出力制御部111)は、速度重視のモードが選択されたことを示す情報を入出力装置30に提示させる。具体的な一例として、情報処理装置10は、入出力装置30に提示させる所定の出力情報の提示態様が、選択した速度重視のモードに対応する態様となるように制御する(S113)。また、この場合には、情報処理装置10(例えば、音響解析部101及び言語解析部107)は、音声に対して音声認識処理を施す際の探索範囲や、当該音声に対する音声認識処理の結果に対して言語解析処理を施す際の探索範囲を狭めて各処理を実行する(S115)。
 そして、情報処理装置10(出力制御部111)は、音声の集音結果に基づく音響信号に対する音声認識処理(音響解析)や自然言語処理(言語解析)の結果に基づき、当該音声の認識処理の結果を入出力装置30に提示させる。具体的な一例として、情報処理装置10は、当該音声が音声認識処理や事前言語処理に基づき変換された文字情報を、入出力装置30に提示させてもよい(S117)。
 以上、図5を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明した。
  <2.3.変形例>
 続いて、本実施形態に係る情報処理システムの変形例について説明する。
  <2.3.1.変形例1-1:コンテキスト情報に応じた制御の一例>
 まず、変形例1-1として、コンテキスト情報(即ち、各種状態や状況)に応じた制御の一例について、具体的な例を挙げて説明する。なお、本説明では、上述した実施形態と同様に、精度重視のモードと、速度重視のモードとを切り替える場合に着目して説明する。
 (発話の状況に応じた制御)
 例えば、情報処理システムは、発話の状況(例えば、音量の大きさ)を示すコンテキスト情報に応じて、音声の認識に係る各処理や、当該音声の認識結果を提示するための処理(以下、これらを総じて「音声の認識に関する処理」とも称する)を制御してもよい。具体的な一例として、情報処理システムは、発話の音量が閾値よりも大きい場合には精度重視のモードを選択し、当該音量が閾値よりも小さい場合には速度重視のモードを選択してもよい。
 (音声の音質に応じた制御)
 また、情報処理システムは、発話された音声の音質を示すコンテキスト情報に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、発話された音声が子供の声であることを認識した場合には、精度重視のモードを選択してもよい。また、情報処理システムは、発話された音声が女性の声であることを認識した場合には、速度重視のモードを選択してもよい。また、情報処理システムは、発話された音声が音程の低い男性の声であることを認識した場合には、速度重視のモードを選択してもよい。また、情報処理システムは、発話された音声が音程のより高い声であることを認識した場合には、速度重視のモードを選択してもよい。
 (発話者に応じた制御)
 また、情報処理システムは、発話者を認識することで、当該発話者に応じて、音声の認識に関する処理を制御してもよい。即ち、情報処理システムは、発話者が子供であることを認識した場合には、精度重視のモードを選択してもよい。また、情報処理システムは、発話者が大人であることを認識した場合には、速度重視のモードを選択してもよい。
 (実行中の機能に応じた制御)
 また、情報処理システムは、発話された音声の集音時に実行されている機能(例えば、アプリケーション)の種別に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、メール機能が実行されている場合(例えば、当該機能により音声の認識結果が使用される場合)には、精度重視のモードを選択してもよい。また、情報処理システムは、所謂インスタントメッセージ機能が実行されている場合には、速度重視のモードを選択してもよい。
 (コミュニケーションの相手に応じた制御)
 また、他の一例として、情報処理システムは、音声の認識結果を利用するコミュニケーションの相手に応じて、当該音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、音声を発話したユーザのコミュニケーションの相手が当該ユーザの上司に相当する人物の場合には、精度重視のモードを選択してもよい。また、情報処理システムは、音声を発話したユーザのコミュニケーションの相手が当該ユーザの部下に相当する人物の場合には、速度重視のモードを選択してもよい。
 (入力デバイスへの操作状況に応じた制御)
 また、情報処理システムは、キーボードやコントローラ等への情報の入力状況に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、入力デバイスに対する操作の操作量が多い場合や、操作の頻度が高い場合には、精度重視のモードを選択してもよい。また、情報処理システムは、入力デバイスに対する操作の操作量が少ない場合や、操作の頻度が低い場合には、速度重視のモードを選択してもよい。
 (デバイスの種別に応じた制御)
 また、情報処理システムは、ユーザが利用するデバイス(例えば、入出力デバイス)の種別に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、ユーザがディスプレイ等の表示部を有さないデバイスを利用している状況下では、精度重視のモードを選択してもよい。これに対して、情報処理システムは、ユーザが表示部を有するデバイスを利用している状況下では、速度重視のモードを選択してもよい。
 (生体情報に応じた制御)
 また、情報処理システムは、ユーザの生体情報を利用することで当該ユーザの状態や状況を認識し、当該認識結果に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、脈拍が速い場合には、ユーザが焦っている状況が想定され得る。そのため、この場合には、情報処理システムは、精度重視のモードを選択してもよい。これに対して、脈拍が遅い場合には、ユーザが落ち着いている状況が想定され得る。そのため、この場合には、情報処理システムは、速度重視のモードを選択してもよい。
 なお、上記に説明した例はあくまで一例であり、情報処理システムが、取得したコンテキスト情報に応じて各種状態や状況を認識し、当該状態や状況に応じて、音声の認識に関する処理を制御することが可能であれば、必ずしも上記に説明した例のみには限定されない。例えば、情報処理システムに対して、ユーザからコンテキスト情報が与えられてもよい。具体的な一例として、上述した精度重視のモードや速度重視のモード等のモードを選択するための操作がユーザにより行われた場合には、情報処理システムは、ユーザにより選択されたモードに切り替えてもよい。
 また、情報処理システムは、上記では精度重視のモードと速度重視のモードとのいずれかに切り替える例に着目して説明したが、必ずしも当該制御のみには限定されない。具体的な一例として、情報処理システムは、音声認識処理や自然言語処理における探索範囲の広さをコンテキスト情報に応じてアナログ的に制御してもよい。また、情報処理システムは、音声の認識に関する処理の実行中においても、その時々のコンテキスト情報に応じて探索範囲を動的に制御してもよい。
 以上、変形例1-1として、コンテキスト情報(即ち、各種状態や状況)に応じた制御の一例について、具体的な例を挙げて説明した。
  <2.3.2.変形例1-2:コンテキスト情報に情報の提示態様の一例>
 続いて、変形例1-2として、図6を参照して、本実施形態に係る情報処理システムが、コンテキスト情報に応じて音声の認識に関する処理を制御した場合に、当該制御結果(例えば、選択されたモード)をユーザに通知するための情報の提示態様の一例について説明する。図6は、変形例1-2に係る情報処理システムの概要について説明するための説明図である。なお、本説明では、上述した実施形態と同様に、精度重視のモードと、速度重視のモードとを切り替える場合に着目して説明する。
 具体的な一例として、情報処理システムは、ビジュアルフィードバックの色により、選択されたモードをユーザに通知してもよい。例えば、図4を参照して説明した例では、情報処理システムは、音声(音響)の集音状況をユーザに報知するための表示情報V115の色の違いにより、選択されているモードをユーザに通知している。
 また、他の一例として、情報処理システムは、ビジュアルフィードバックの形状により、選択されたモードをユーザに通知してもよい。例えば、図6に示す例では、情報処理システムは、精度重視のモードが選択された場合には、当該モードが選択されていることを示すアイコンを付加的に提示している。
 また、他の一例として、情報処理システムは、選択されたモードを文言により表現してもよい。例えば、図6に示す例では、情報処理システムは、速度重視のモードを選択した場合には、単に「お話しください」という文言を提示している。これに対して、情報処理システムは、精度重視のモードを選択した場合には、速度重視のモードを選択した場合とは異なり、「ゆっくりお話しください」という文言を提示している。なお、各文言をユーザに提示する方法は特に限定されない。具体的な一例として、当該文言が表示情報としてユーザに提示されてもよい。また、他の一例として、当該文言が、TTS等の技術に基づき音声としてユーザに提示されてもよい。
 また、他の一例として、情報処理システムは、サウンドフィードバックにより、選択されたモードをユーザに通知してもよい。例えば、図6に示す例では、情報処理システムは、速度重視のモードが選択された場合と、精度重視のモードが選択された場合とで、異なるピッチで効果音を出力することで、選択したモードをユーザに通知している。
 なお、上記に説明した例はあくまで一例であり、選択されたモードをユーザに通知するための方法や、当該通知に利用されるデバイスの種別は特に限定されない。具体的な一例として、情報処理システムは、ユーザが保持するデバイスに内蔵されたアクチュエータを選択したモードに応じて異なる態様で振動させることで、選択した当該モードをユーザに通知してもよい。
 以上、変形例1-2として、図6を参照して、本実施形態に係る情報処理システムが、コンテキスト情報に応じて音声の認識に関する処理を制御した場合に、当該制御結果(例えば、選択されたモード)をユーザに通知するための情報の提示態様の一例について説明した。
  <2.3.3.変形例1-3:その他の適用例>
 続いて、変形例1-3として、本実施形態に係る情報処理システムの他の適用例について説明する。
 上述した実施形態及び変形例では、本実施形態に係る情報処理システムを、音声の認識に適用する例について説明した。一方で、音声の集音結果に基づく処理を、コンテキスト情報に応じて制御することが可能であれば、当該処理の内容は必ずしも当該音声の認識に係る処理のみには限定されない。
 例えば、本実施形態に係る情報処理システムを、集音された音声の録音(即ち、音声の記録)に適用してもよい。具体的な一例として、情報処理システムは、発話速度に応じて録音品質を制御してもよい。この場合には、例えば、情報処理システムは、発話速度が閾値よりも速い場合には、録音品質がより高くなるように制御してもよい。一方で、情報処理システムは、発話速度が閾値よりも遅い場合には、録音品質がより低くなるように制御してもよい。
 なお、上記に説明した実施形態や変形例では、主に、コンテキスト情報が示す状態や状況に応じて、音声認識処理や自然言語処理における探索範囲を制限する制御を抑制する例に着目して説明したが、必ずしも同制御のみには限定されない。即ち、本実施形態に係る情報処理システムは、コンテキスト情報が示す状態や状況に応じて、音声認識処理や自然言語処理における探索範囲がより制限されるように制御してもよい。具体的な一例として、情報処理システムは、認識精度がより高くなる傾向にある音声が対象であることをコンテキスト情報に基づき認識した場合には、音声認識処理や自然言語処理における探索範囲がより制限されるように制御することで、応答速度をより向上させてもよい。
 以上、変形例1-3として、本実施形態に係る情報処理システムの他の適用例について説明した。
  <2.4.評価>
 以上説明したように、本実施形態に係る情報処理システムは、音声の集音に関する期間における各種状態や状況(例えば、発話の態様)に応じて、音声の認識に関する処理や、当該音声の認識結果の提示態様を動的に制御する。このような構成により、例えば、ユーザがある作業に集中しており、発話した音声の認識結果を確認することが困難な状況下では、音声の認識精度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、認識結果の確認を意識せずに当該作業に集中することが可能となる。また、ユーザが特定の作業に注意力を注ぐ必要がなく、余裕をもって音声の認識結果を確認することが可能な状況下では、応答速度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、自身が発話した音声の認識結果を速やかに確認することが可能となる。
 <<3.第2の実施形態>>
  <3.1.概要>
 続いて、本開示の第2の実施形態に係る情報処理システムについて説明する。前述したように、近年では、ユーザが音声により各種情報を入力可能としたUIが普及してきている。また、当該UIの適用先も、例えば、ゲーム上での情報入力や、動画配信機能への情報の入力等のように多岐にわたり、利用形態に応じて多様なUIが提供されている。このようなUIの具体的な一例として、例えば、ゲーム等において他のユーザとのコミュニケーションのために、音声により文字情報を入力可能とし、かつ当該音声による入力結果(即ち、音声が変換された文字情報)を修正可能に提示するUIも提供されている。例えば、図7は、本実施形態に係る情報処理システムの概要について説明するための説明図であり、音声により文字情報を入力可能としたUIの一例を示している。
 例えば、図7の左側の図に示す画面V200aは、ユーザが発話した音声を音声認識処理(音響解析)や自然言語処理(言語解析)に基づき文字情報に変換し、当該文字情報をユーザに提示するためのUIの一例を示している。例えば、画面V200aは、参照符号V201aで示された出力フィールドに、音声が変換された文字情報を、例えば、キーボードやタッチパネル等の入力デバイスを介して一文字ずつ修正可能に提示している(即ち、一般的なテキスト入力と同様の方法により修正可能に提示している)。
 また、他の一例として、図7の右側の図に示す画面V200bは、ユーザが発話した音声を文字情報に変換し、当該文字情報をユーザに提示するためのUIの他の一例を示している。画面V200bは、参照符号V201bで示された出力フィールドに、音声が変換された文字情報を提示している。また、このとき画面V200bは、例えば、音声認識処理により音声が変換された文字情報に対する形態素解析や構文解析の結果に基づき、まとまった単位の語句ごとに修正可能に提示している。
 ところで、ゲームのプレイや動画の視聴等のような作業を行いながら音声を入力するような状況下において、ユーザが、何らかの対象に注意を注いでいる場合には、当該ユーザは、音声の認識結果を修正している余裕が無い可能性も想定され得る。そのため、このような場合には、例えば、可能な限り修正操作を必要としない態様で、音声の認識結果を提示することが望ましい。一方で、音声の認識結果に対する修正を受け付けないUIや、修正操作が行われないことを前提とした結果のみを提示するUIにおいては、例えば、ユーザが、余裕をもって情報(例えば、音声)を入力できるような状況下では、任意の文章を入力しづらくなる場合も想定され得る。
 以上のような状況を鑑み、本実施形態に情報処理システムは、ユーザの状態や状況を認識し、当該認識結果に応じて当該ユーザが発話した音声の認識結果(例えば、音声が変換された文字情報)の提示態様を動的に制御することが可能なUIを提供する。
 例えば、図8は、本実施形態に係る情報処理システムが提供するUIの一例について説明するための説明図である。本実施形態に係る情報処理システムは、例えば、音声の認識結果の確認に係るユーザの注意力の度合いと、音声の認識結果の確度と、に応じて、当該音声の認識結果の提示態様を制御する。具体的な一例として、図8に示す例は、ユーザがゲームをプレイしながら音声により情報を入力する状況下において、ユーザのゲームへの注意力の度合い(換言すると、音声の認識結果の確認に係る注意力の度合い)に応じて、当該音声の認識結果の提示態様を制御する場合の一例を示している。
 なお、図8に示す例では、ユーザが、「ケルベロス強いからキュアかけてすぐ逃げて」と発話し、情報処理システムは、当該ユーザが発話した音声を、「蹴るベロス強いからきゅ亜かけてすぐ逃げて」と認識している。即ち、図8に示す例では、ユーザが発話した音声のうち、「ケルベロス」という語句と、「キュア」という語句の認識に係る確度が低いため、結果として当該語句について誤った認識結果が提示されることとなる。
 ここで、図8の左側の図に着目する。図8の左側の図に示す画面V210aは、ユーザがほとんどゲームをプレイしておらず、余裕をもって音声の認識結果を確認することが可能な状況下で提示される画面(UI)の一例を示している。そのため、この場合には、情報処理システムは、「蹴るベロス強いからきゅ亜かけてすぐ逃げて」という、集音された音声の認識結果(即ち、音声が変換された文字情報)を、出力フィールドV211aに提示している。
 次いで、図8の中央の図に着目する。図8の中央の図に示す画面V210bは、左側の図が示す状況に比べて、ユーザがゲームのプレイに注意を注いでいる状況下(例えば、ゲームに少し夢中になっている状況下)で提示される画面(UI)の一例を示している。このような場合には、例えば、情報処理システムは、発話された音声の認識結果のうち、確度のより低い「ケルベロス」及び「キュア」という語句を、当該語句の発音を示す文字情報(例えば、ひらがな)として提示している。
 次いで、図8の右側の図に着目する。図8の右側の図に示す画面V210bは、中央の図が示す状況に比べて、ユーザがさらにゲームのプレイに注意を注いでいる状況下(例えば、ゲームにより夢中になっている状況下)で提示される画面(UI)の一例を示している。このような場合には、例えば、情報処理システムは、発話された音声の認識結果のうち、確度のより低い「ケルベロス」及び「キュア」という語句のみに限らず、当該音声の認識結果全体を、当該音声の発音を示す文字情報として提示している。
 即ち、図8に示す例では、本実施形態に係る情報処理システムは、例えば、音声の認識結果の確認に係るユーザの注意力の度合いに応じて、音声の認識結果のうち、当該音声の認識に係る確度のより低い語句の提示態様を制御する。また、このとき情報処理システムは、提示態様を制御するための判定基準(例えば、確度と比較する閾値)を、当該注意力の度合いに応じて動的に制御する。
 このように、本実施形態に係る情報処理システムは、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、当該音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御する。このような制御により、例えば、ユーザが、余裕をもって音声の認識結果を確認することが困難な状況においても、誤った変換結果(例えば、意味内容の異なる語句)が提示されることより、ユーザによる当該認識結果の理解が阻害されるといった事態の発生を防止することが可能となる。また、音声が変換された文字情報のうち少なくとも一部の語句を修正するような状況においても、誤った変換結果が提示されている状況下で対象となる語句を修正する場合に比べて、より容易に対象となる語句を修正することが可能となる。なお、音声の認識結果に基づき提示される情報(例えば、音声が変換された文字情報)は、「音声の集音に関連する出力情報」の一例に相当する。
 また、本実施形態に係る情報処理システムは、音声の集音環境の状態に応じて、当該音声の認識結果のうち少なくとも一部の語句の提示態様を制御してもよい。
 具体的な一例として、周囲の雑音の影響が大きい場合(例えば、雑音の音量が大きい場合)には、音声の認識に係る精度が低下し、結果として当該音声の認識に誤りが生じる場合がある。このような音声の認識時に生じる誤りは、当該音声の認識結果の修正を増やす要因ともなり得る。そのため、例えば、情報処理システムは、周囲の雑音の影響の大きさに応じて、音声の認識結果のうち少なくとも一部の語句(例えば、確度のより低い語句)を、当該語句の発音を示す文字情報として提示してもよい。もちろん、情報処理システムは、周囲の雑音の影響の大きい場合には、音声の認識結果全体を、当該音声の発音を示す文字情報として提示してもよい。
 以上、図7及び図8を参照して、本実施形態に係る情報処理システムの概要について説明した。なお、以降では、本実施形態に係る情報処理システムについてより詳しく説明する。
  <3.2.基本原理>
 まず、本実施形態に係る情報処理システムが、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御するための仕組みについてより詳細に説明する。
 前述したように、本実施形態に係る情報処理システムは、音声の認識結果の確認に係るユーザの注意力の度合いに応じて、音声の認識に係る確度のより低い語句の提示態様を制御する。また、情報処理システムは、音声の集音環境の状態に応じて、当該音声の認識結果のうち少なくとも一部の語句の提示態様を制御してもよい。
 また、ユーザからの指示(以降では、「ユーザ制御」とも称する)に基づき、情報処理システムが、音声の認識結果の提示態様を意図的に制御するような状況も想定され得る。具体的な一例として、一般的に認知度の低い新語を発話するような状況下では、ユーザは、当該新語が誤変換されることを想定し、音声の認識結果として、当該音声の発音を示す文字情報としての提示を望む場合も想定され得る。このような状況を鑑み、情報処理システムは、ユーザ制御に基づき、音声の認識結果の提示態様を制御してもよい。
 以上を踏まえ、本実施形態に係る情報処理システムは、以下に(式1)として示される計算式に基づき係数tを算出し、当該係数tと、音声の認識に係る確度とを比較することで、当該音声の認識結果のうち少なくとも一部の語句の提示態様を制御する。
Figure JPOXMLDOC01-appb-M000001
 上記に示した(式1)において、αは、音声の認識結果の確認に係るユーザの注意力の度合いに応じた変数を示している。また、βは、音声の集音環境の状態に応じた変数を示している。例えば、図9は、本実施形態に係る情報処理システムの動作の詳細について説明するための説明図であり、変数α及びβの特性の一例について示している。図9の左側の図は、変数αの特性を示すグラフである。変数αの特性を示すグラフにおいて、縦軸は、αの値を示し、横軸は、音声の認識結果の確認に係るユーザの注意力の度合いを示している。また、図9の右側の図は、変数βの特性を示すグラフである。変数βの特性を示すグラフにおいて、縦軸は、βの値を示し、横軸は、音声の集音環境における当該音声の集音を阻害する要因の影響の大きさを示している。図9に示すように、変数αは、音声の認識結果の確認に係るユーザの注意力が低いほど、より高い値を示す。また、変数βは、雑音の影響が大きい場合等のように、音声の集音を阻害する要因の影響が大きいほど、より高い値を示す。
 また、γは、ユーザ制御に応じた変数を示しており、ユーザからの指示がある場合には1を示し、ユーザからの指示が無い場合には0を示す。また、音声の認識に係る確度は、0.0~1.0の値を示すものとする。
 以上を踏まえ、本実施形態に係る情報処理システムは、音声の認識結果の確認に係るユーザの注意力の度合い、音声の集音環境の状態、及びユーザ制御の有無を認識し、当該認識結果に基づき係数tを算出する。そして、情報処理システムは、音声の認識結果に含まれる少なくとも一部の語句について、当該語句の認識に係る確度と、算出した係数tとを比較し、比較結果に応じて当該語句の提示態様を制御する。
 具体的な一例として、対象となる語句の認識に係る確度が「0.7」であるものとする。このとき、算出された係数tが「0.2」の場合には、情報処理システムは、対象となる語句を、音声認識処理や自然言語処理の結果に基づき、例えば、意味内容まで考慮した文字情報(例えば、日本語における漢字かな交じり文章)として提示する。一方で、算出された係数tが「0.9」の場合には、情報処理システムは、対象となる語句を、当該語句に対する音声認識処理や自然言語処理の結果とは異なる態様で提示する(即ち、当該語句の提示態様を制御する)。具体的な一例として、情報処理システムは、対象となる語句を、当該語句の発音を示す文字情報(例えば、日本語におけるひらがなの文章)として提示する。
 なお、(式1)に示すように、変数α、β、及びγはそれぞれが加算される。そのため、少なくともいずれかの変数が「1.0」であった場合には、他の変数の値に関わらず、算出される係数tは、対象となる語句の確度よりも大きい値を示すこととなる。即ち、この場合には、対象となる語句が、例えば、当該語句の発音を示す文字情報として提示されることとなる。
 なお、変数α及びβの特性は、情報処理システムの利用シーンやユースケースに応じて適宜変更してもよい。例えば、図10は、本実施形態に係る情報処理システムの動作の詳細について説明するための説明図であり、変数α及びβの特性の他の一例について示している。図10に示す例では、例えば、変数α及びβの加算結果が「1.0」を超えない範囲で、当該変数α及びβの特性が設定されている。即ち、図10に示す例では、係数tは、変数α及びβの値のみでは「1.0」以上の値をとらず、ユーザ制御があった場合にのみ「1.0」以上の値をとり得ることとなる。
 以上、図9及び図10を参照して、本実施形態に係る情報処理システムが、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御するための仕組みについて説明した。
  <3.3.処理>
 続いて、図11を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明する。図11は、本実施形態に係る情報処理システムの一連の処理の流れの一例について示したフローチャートである。
 図11に示すように、入出力装置30(例えば、検知部313)は、音声の認識結果の確認に係るユーザの注意力の度合いを示すコンテキスト情報や、音声の集音環境の状態を示すコンテキスト情報を取得する。そして、入出力装置30は、取得したコンテキスト情報を情報処理装置10に送信する(S201)。また、入出力装置30(集音部311)は、所定のイベント(例えば、PTTにおける発話のための操作等)を検知すると、ユーザが発話した音声を集音し、当該音声の集音結果に基づく音響信号を情報処理装置10に送信する(S203)。
 情報処理装置10(コンテキスト解析部109)は、入出力装置30からコンテキスト情報を取得し、取得したコンテキスト情報を解析することで、音声の集音に関する期間における所定の状態や状況を認識する。具体的な一例として、情報処理装置10は、取得したコンテキスト情報に基づき、音声の認識結果の確認に係るユーザの注意力の度合いや、音声の集音環境の状態を認識する。そして、情報処理装置10は、各種状態や状況の認識結果に応じて、音声の認識結果の確度の判定に用いる閾値(即ち、(式1)として示した係数t)を算出する(S205)。
 また、情報処理装置10(出力制御部111)は、音声の集音結果に基づく音響信号に対する音声認識処理(音響解析)や自然言語処理(言語解析)の結果に基づき、当該音声から文字情報への変換に関する確度(即ち、音声の認識結果の確度)を取得する(S207)。
 そして、情報処理装置10(出力制御部111)は、算出された閾値に基づき、音声が変換された文字情報に含まれる各語句の確度を判定し、当該判定結果に応じて当該語句の提示態様を制御する。具体的な一例として、情報処理装置10は、確度が閾値よりも低い語句については、当該語句の認識結果として、当該語句の発音を示す文字情報が提示されるように、当該語句の提示態様を制御する(S209)。
 以上、図11を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明した。
  <3.4.変形例>
 続いて、本実施形態に係る情報処理システムの変形例について説明する。
  <3.4.1.変形例2-1:表示制御の一例>
 まず、変形例2-1として、図12を参照して、本実施形態に係る情報処理システムが、音声の認識結果のうち少なくとも一部の語句の提示態様を制御した場合における、当該認識結果の表示に係る制御の一例について説明する。図12は、変形例2-1に係る情報処理システムの概要について説明するための説明図である。
 前述したように、本実施形態に係る情報処理システムは、例えば、音声の認識結果の確認に係るユーザの注意力の度合いや、当該音声の集音環境の状態に応じて、当該音声の認識結果のうち、少なくとも一部の語句の提示態様を制御する。そのため、このような場合意は、例えば、情報処理システムは、音声の認識結果を表示することでユーザに提示する際に、提示態様が制御された語句を強調表示することで、当該語句の提示態様が制御されていることをユーザに通知してもよい。
 例えば、参照符号V211dに示すように、情報処理システムは、提示態様の制御対象とした語句をダブルクォーテーションで括ることにより、当該語句を強調してもよい。また、他の一例として、参照符号V211eに示すように、情報処理システムは、提示態様の制御対象とした語句に下線を付すことで、当該語句を強調してもよい。また、他の一例として、参照符号V211fに示すように、情報処理システムは、提示態様の制御対象とした語句の文字の大きさ、太さ、色、または濃淡等を制御することで、当該語句を強調してもよい。また、他の一例として、参照符号V211gに示すように、情報処理システムは、提示態様の制御対象とした語句の前後に空白を挿入することで、当該語句を強調してもよい。
 以上のような制御により、ユーザは、提示された音声の認識結果のうち、提示態様の制御対象となった語句を、直感的に認識することが可能となる。なお、図12に示した例はあくまで一例であり、提示態様の制御対象なった語句を強調することが可能であれば、その方法は特に限定されない。
 以上、変形例2-1として、図12を参照して、本実施形態に係る情報処理システムが、音声の認識結果のうち少なくとも一部の語句の提示態様を制御した場合における、当該認識結果の表示に係る制御の一例について説明した。
  <3.4.2.変形例2-2:英語の音声を認識する場合の制御例>
 続いて、変形例2-2として、図13を参照して、本実施形態に係る情報処理システムが、英語で発話された音声を認識する場合の制御の一例について説明する。図13は、変形例2-2に係る情報処理システムの概要について説明するための説明図である。
 英語は、日本語の場合における漢字とひらがなとを使い分けるといった概念が無い。そのため、英語の音声の認識結果を提示する場合には、日本語のように、漢字かな交じりの文章と、ひらがなの文章とを切り替えるような制御を行うことが困難である。
 そこで、変形例2-2に係る情報処理システムは、英語の音声の認識結果を提示する状況下において、当該認識結果に含まれる一部の語句について認識に係る確度が低い場合には、当該語句を原形や単数形で提示してもよい。
 例えば、図13は、ユーザが、英語で「I got rare items」と発話し、情報処理システムが発話された音声を認識した状況下において、認識された音声のうち、「items」という語句(単語)の認識に係る確度が低い場合の制御の一例について示している。この場合には、情報処理システムは、図13に示すように、音声の認識に係る確度の低い「items」という語句の認識結果を、当該語句の原形(単数形)である「item」として提示している。
 また、このとき情報処理システムは、変形例2-1として説明した例と同様に、提示態様が制御された語句を強調表示することで、当該語句の提示態様が制御されていることをユーザに通知してもよい。
 以上、変形例2-2として、図13を参照して、本実施形態に係る情報処理システムが、英語で発話された音声を認識する場合の制御の一例について説明した。
  <3.4.3.変形例2-3:その他の制御例>
 続いて、変形例2-3として、音声の認識に係る確度の低い場合における制御の他の一例について説明する。
 前述したように、本実施形態に係る情報処理システムは、日本語の音声を集音し、かつ、当該音声の認識に係る確度が低い場合には、当該音声の認識結果を、ひらがな等のような当該音声の発音を示す文字情報として出力される。一方で、ひらがなのみで提示された文章を視覚的に認識する場合には、漢字かな交じりの文章を視覚的に認識する場合に比べて、その意味内容を理解しにくい傾向にある。
 このような状況を鑑み、変形例2-3に係る情報処理システムは、例えば、提示態様の制御に伴い、ひらがなで提示された語句がより多くなるような状況下では、音声の認識結果をTTS等の技術に基づき音声として出力してもよい。このような制御により、ユーザは、ひらがなで提示された文章を視覚的に認識する場合に比べて、音声の認識結果をより理解しやすくなる。
 より具体的な一例として、ユーザが、ネットワークを介して他のユーザとコミュニケーションをとるような状況に着目する。この場合には、情報処理システムは、ユーザが発話した音声の認識結果に基づき、当該音声が変換された文字情報が、ひらがなで提示された語句がより多く含むことを認識した場合には、当該文字情報を音声に変換してユーザに提示する。また、情報処理システムは、他のユーザの音声の認識結果を提示する場合においても、当該音声が変換された文字情報が、ひらがなで提示された語句がより多く含むことを認識した場合には、当該文字情報を音声に変換してユーザに提示してもよい。
 また、情報処理システムは、音声が変換された文字情報を音声に変換して出力する場合には、当該文字情報を音声に変換して出力したことを所定の報知情報に基づき報知してもよい。具体的な一例として、情報処理システムは、音声が変換された文字情報の提示態様(例えば、色、太さ、濃淡等)を制御することで、当該文字情報を音声に変換して出力していることをユーザに報知してもよい。
 以上、変形例2-3として、音声の認識に係る確度の低い場合における制御の他の一例について説明した。
  <3.5.評価>
 以上説明したように、本実施形態に係る情報処理システムは、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、当該音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御する。このような制御により、例えば、ユーザが、余裕をもって音声の認識結果を確認することが困難な状況においても、誤った変換結果(例えば、意味内容の異なる語句)が提示されることより、ユーザによる当該認識結果の理解が阻害されるといった事態の発生を防止することが可能となる。また、音声が変換された文字情報のうち少なくとも一部の語句を修正するような状況においても、誤った変換結果が提示されている状況下で対象となる語句を修正する場合に比べて、より容易に対象となる語句を修正することが可能となる。
 なお、本実施形態に係る情報処理システムは、前述した第1の実施形態に係る情報処理システムと組み合わせることも可能である。具体的な一例として、情報処理システムは、取得したコンテキスト情報が示す各種状態や状況に応じて、音声認識処理や自然言語処理に探索範囲と、音声の認識結果の提示態様とを制御してもよい。
 <<4.第3の実施形態>>
  <4.1.概要>
 続いて、本開示の第3の実施形態に係る情報処理システムについて説明する。ユーザが発話した音声を認識するシステムでは、当該ユーザに対して音声の認識に係る処理の実行状況をフィードバックするためのUIを提供するものがある。具体的な一例として、マイクロフォン等の集音部に集音された音声(音響)の音量を測定し、当該音量の測定結果を、例えば、音量メータ等の表示情報としてリアルタイムで提示するUIが挙げられる。このようなUIが提供されることで、ユーザは、自身の発話した音声がシステムに認識されていることを直感的(視覚的)に認識することが可能となる。
 一方で、上述した集音部に集音された音声の音量の測定結果をユーザにフィードバックするUIは、例えば、周囲の環境音等のような雑音の影響が大きい状況においては、必ずしも有効に機能するとは限らない。具体的には、集音部による雑音が集音され、当該雑音の音量の測定結果がユーザにフィードバックされる場合があり、この場合には、ユーザは、当該フィードバックが自身の発話と周囲の雑音とのいずれの集音結果によるものかを判別することが困難となる。結果として、ユーザは、自身の発話した音声がシステムに認識されているか否かを判別することが困難となる。
 これに対して、例えば、音声の集音結果に対する認識処理の結果に基づき、音声が認識された場合にのみユーザに情報をフィードバックする方法が挙げられる。しかしながら、音声の認識処理は、一般的には処理量が多く処理に時間がかかる傾向にあり、ユーザが発話してから当該ユーザに情報をフィードバックするまでに時間を要する場合が少なくない。
 以上のような状況を鑑み、本実施形態に係る情報処理システムは、音声と雑音を識別し、音声が集音された場合に、ユーザに対してより早いタイミングで情報を報知することが可能なUIを提供する。例えば、図14は、本実施形態に係る情報処理システムの概要について説明するための説明図である。
 図14において、上段に比較例として示した例は、音声の集音結果に対する認識処理の結果に基づき、ユーザに対して情報をフィードバックする場合における、当該フィードバックのタイミングを模式的に示している。また、下段に実施例として示した例は、本実施形態に係る情報処理システムが、音声を集音した場合に、ユーザに対して情報をフィードバックするタイミングの一例を示している。
 まず、図14に示す比較例に着目して説明する。情報処理システムが音声入力の取得(例えば、音声の集音)を開始し、ユーザが集音部に向けて発話を開始すると、当該ユーザにより発話された音声が当該情報処理システムに逐次集音される。比較例に係る情報処理システムは、集音された音声に対して認識処理を逐次実行し、少なくとも一部の音声について当該認識処理の結果を取得すると、当該認識処理の結果に基づく出力情報V301を、途中結果としてユーザに提示している。そして、当該情報処理システムは、集音された一連の音声に対する認識処理(例えば、音声認識処理や自然言語処理)が完了すると、当該各処理の結果に基づく出力情報V303を、最終結果としてユーザに提示する。このように、比較例に係る情報処理システムでは、ユーザが音声の発話を開始してから、当該ユーザに対して情報のフィードバックが行われるまでに、タイムラグが生じる場合がある。
 次いで、図14に示す実施例に着目して説明する。本実施形態に係る情報処理システムは、ユーザが発話した音声の集音結果に基づく音響信号を取得すると、VAD等の技術に基づき、当該音響信号に含まれる音声信号を検知(抽出)する。そして、当該情報処理システムは、取得した音響信号に含まれる音声信号を検知すると、報知情報V305をユーザに提示する。なお、以降については、実施例に係る情報処理システムは、比較例に係る情報処理システムと同様に、集音された音声に対して認識処理を逐次実行し、当該認識処理の実行結果に応じて出力情報V303を、途中結果としてユーザに提示する。また、実施例に係る情報処理システムは、集音された一連の音声に対する認識処理(例えば、音声認識処理や自然言語処理)が完了すると、当該各処理の結果に基づく出力情報V303を、最終結果としてユーザに提示する。
 上記に説明した通り、本実施形態に係る情報処理システムは、集音された音声に対する認識処理の結果に基づく出力情報V301が提示されるよりも早いタイミングで、報知情報V305をユーザに提示することが可能となる。また、報知情報V305は、集音された音響信号に含まれる音声信号の検知結果に基づきユーザに提示されるため、周囲の雑音のみが集音された場合には、報知情報V305はユーザに提示されない。このような構成により、本実施形態に係る情報処理システムは、音声と雑音を識別し、音声が集音された場合に、ユーザに対してより早いタイミングで情報を報知することが可能となる。
 以上、図14を参照して、本実施形態に係る情報処理システムの概要について説明した。なお、以降では、本実施形態に係る情報処理システムについてより詳しく説明する。
  <4.2.処理>
 続いて、図15を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明する。図15は、本実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。
 図15に示すように、音声の集音が開始されると、情報処理装置10は、入出力装置30から集音部311による集音結果に基づく音響信号の取得を開始する(S301)。また、情報処理装置10(音声検出部103)は、VAD等の技術に基づき、入出力装置30から取得した音響信号に含まれる音声信号を抽出することで、ユーザの発話を検知する(S303)。このように、情報処理装置10は、入出力装置30から逐次取得される音響信号からの音声信号の抽出に基づく、ユーザの発話の検知を逐次実行する(S305、NO)。
 そして、情報処理装置10(出力制御部111)は、ユーザの発話を検知すると(S305、YES)、報知情報を入出力装置30に提示させることで、ユーザに発話を検知したことを報知する(S307)。
 次いで、情報処理装置10(音声認識処理部105)は、音響信号から抽出された音声信号に対して所謂音声認識処理を施すことで、当該音声信号を、音声の発音を示す文字情報に変換する。なお、情報処理装置10(出力制御部111)は、当該音声認識処理の結果が取得されるまで、入出力装置30に報知情報の提示を継続させてもよい(S309、NO)。
 そして、情報処理装置10(出力制御部111)は、音声信号に対する音声認識処理の結果を取得すると、当該音声認識処理の結果に基づく情報(例えば、音声が変換されたも文字情報)を入出力装置30に提示させる(S311)。また、情報処理装置10(出力制御部111)は、当該音声認識処理の結果に対して自然言語処理を実行し、当該自然言語処理の結果に基づき、音声の認識結果を示す情報を入出力装置30に提示させてもよい。
 以上、図15を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明した。
  <4.3.変形例>
 続いて、本実施形態に係る情報処理システムの変形例について説明する。
  <4.3.1.変形例3-1:報知情報の一例>
 まず、変形例3-1として、図16を参照して、本実施形態に係る情報処理システムが、発話(音声)の検知結果に基づきユーザに提示する報知情報の一例について説明する。図16は、変形例3-1に係る情報処理システムの概要について説明するための説明図であり、報知情報の一例について示している。
 (文言による状態の提示)
 例えば、情報処理システムは、発話を検知している状態と、発話を検知していない状態との各状態(以降では、「発話の検知状態」とも称する)を、文言の提示によりユーザに報知してもよい。例えば、図16における参照符号V311a及びV313aは、文言の提示により発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号V311aは、発話前の状態(即ち、発話を検知していない状態)を示している。また、参照符号V313aは、発話中の状態(即ち、発話を検知した状態)を示している。この場合には、情報処理システムは、発話前の状態では「Waiting your speech」という文言を提示し、発話中の状態では「Recognizing ...」という文言を提示している。これにより、ユーザは、提示された文言に応じて、自身の発話が検知されているか否かを認識することが可能となる。
 (アイコンの変更による状態の提示)
 また、情報処理システムは、アイコン等の表示情報を変更することで、発話の検知状態をユーザに報知してもよい。例えば、図16における参照符号V311b及びV313bは、アイコン等の表示情報の変更により発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号V311bは、発話前の状態を示している。また、参照符号V313bは、発話中の状態を示している。この場合には、情報処理システムは、発話前の状態ではマイクのアイコンを提示し、発話中の状態では当該マイクのアイコンを耳のイメージが付加されたアイコンに変更している。これにより、ユーザは、提示されたアイコンに応じて、自身の発話が検知されているか否かを認識することが可能となる。
 (アイコンの色による状態の提示)
 また、情報処理システムは、アイコン等の表示情報の色を変更することで、発話の検知状態をユーザに報知してもよい。例えば、図16における参照符号V311c及びV313cは、アイコン等の表示情報の色を変更することで発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号V311cは、発話前の状態を示している。また、参照符号V313cは、発話中の状態を示している。この場合には、情報処理システムは、マイクのアイコンを、発話前の状態と発話前の状態との間で異なる色で提示している。これにより、ユーザは、提示されたアイコンの色に応じて、自身の発話が検知されているか否かを認識することが可能となる。
 (アニメーションによる状態の提示)
 また、情報処理システムは、アニメーション表示を利用することで、発話の検知状態をユーザに報知してもよい。例えば、図16における参照符号V311d及びV313dは、アニメーション表示により発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号V311dは、発話前の状態を示している。また、参照符号V313dは、発話中の状態を示している。この場合には、情報処理システムは、発話を検知すると、マイクのアイコンに記号が吸い込まれるようなアニメーションを提示する。これにより、ユーザは、アニメーションの提示の有無に応じて、自身の発話が検知されているか否かを認識することが可能となる。
 なお、図16を参照して上述した例はあくまで一例であり、発話の検知状態をユーザに報知することが可能であれば、その方法や、当該報知情報の報知に利用するデバイスの種別は特に限定されない。具体的な一例として、情報処理システムは、スピーカ等の音響出力部から効果音等の音響を出力することで、発話の検知状態をユーザに報知してもよい。また、他の一例として、情報処理システムは、ユーザが保持するデバイスのアクチュエータを駆動することで、振動により、発話の検知状態をユーザに報知してもよい。
 以上、変形例3-1として、図16を参照して、本実施形態に係る情報処理システムが、発話(音声)の検知結果に基づきユーザに提示する報知情報の一例について説明した。
  <4.3.2.変形例3-2:音声の認識状態の提示例>
 続いて、変形例3-2として、発話の検知状態に加えて、発話された音声の認識状態をユーザに提示する場合のUIの一例について説明する。
 例えば、図17は、変形例3-2に係る情報処理システムが提供するUIの一例について説明するための説明図であり、発話の検知状態について報知した後に、音声の認識状態に応じて段階的に情報をユーザに提示する場合のUIの一例を示している。図17に示す例では、情報処理システムは、音声信号に対する音響解析の過程で得られる音響モデルに基づき、報知情報を報知している。
 具体的には、情報処理システムは、音声信号に対して音響解析を施すことで、当該音声信号の音響モデルのデータを取得すると、当該音響モデルに基づく出力情報V321(例えば、音声の発音を示す情報)をユーザに提示する。なお、以降は、情報処理システムは、当該音響モデルのデータに基づく音声の認識結果を取得すると、当該認識結果に基づく出力情報V323を途中結果として逐次提示する。また、情報処理システムは、一連の音声に対する音声認識処理や自然言語処理が完了すると、当該各処理の結果に基づく出力情報V325を、最終結果としてユーザに提示する。
 また、比較的長い文章を示す音声を認識するような状況下では、上述した音響モデルに基づく出力情報V321の提示と、音声の認識結果に基づく出力情報V323の提示とを段階的に実行してもよい。例えば、図18は、変形例3-2に係る情報処理システムが提供するUIの他の一例について説明するための説明図である。図18に示す例では、ユーザが「Oh I’m going to join the party tonight.」と発話し、情報処理システムが、当該ユーザが発話した音声の認識結果に基づき情報を提示する場合の一例を示している。
 まず、情報処理システムは、「Oh I’m」という音声に対して音響解析を施すと、1段目の図に示すように、当該音響解析の結果として得られる音響モデルのデータに基づき、当該音声の発音を示す出力情報V331をユーザに提示する。また、情報処理システムは、当該音響モデルのデータに基づく音声の認識結果を取得すると、2段目の図に示すように、当該認識結果に基づき、既に提示した出力情報V331を、「Oh I’m」という語句を示す出力情報V333に置き換えることで、当該出力情報V333を途中結果として提示する。
 次いで、情報処理システムは、続いて入力された「going to join」という音声に対して音響解析を施すと、3段目の図に示すように、当該音響解析の結果として得られる音響モデルのデータに基づき、既に提示した「Oh I’m」という語句に続けて、当該音声の発音を示す出力情報V335をユーザに提示する。また、情報処理システムは、当該音響モデルのデータに基づく音声の認識結果を取得すると、4段目の図に示すように、当該認識結果に基づき、既に提示した出力情報V335を、「going to join」という語句を示す出力情報V337に置き換えることで、当該出力情報V337を途中結果として提示する。
 情報処理システムは、以上のような制御を、逐次入力される音声に基づき実行し、一連の音声に対する音声認識処理や自然言語処理が完了すると、当該各処理の結果に基づく出力情報V329を、最終結果としてユーザに提示する。例えば、図18に示す例では、情報処理システムは、ユーザが発話した音声の認識結果として、「Oh I’m going to join the party tonight.」という文章を示す出力情報V329を提示している。
 以上のように、変形例3-2に係る情報処理システムは、発話の検知結果に基づく報知情報を提示してから、発話された音声の認識結果に基づく出力情報が提示されるまでの間に、当該音声の音響モデルのデータに基づく出力情報を提示する。このような制御により、提示される出力情報が更新されない期間がより短くなるため、ユーザは、自身が発話した音声の認識に係る状態や状況を、より好適な態様で認識することが可能となる。
 以上、変形例3-2として、図17及び図18を参照して、発話の検知状態に加えて、発話された音声の認識状態をユーザに提示する場合のUIの一例について説明した。
  <4.4.評価>
 以上説明したように、本実施形態に係る情報処理システムは、VAD等の技術に基づき、音声の集音結果に基づく音響信号に含まれる音声信号を検知(抽出)し、当該検知結果に基づき報知情報をユーザに提示する。このような構成により、本実施形態に係る情報処理システムは、集音された音声に対する認識処理の結果に基づく出力情報が提示されるよりも早いタイミングで、報知情報をユーザに提示することが可能となる。また、当該報知情報は、集音された音響信号に含まれる音声信号の検知結果に基づきユーザに提示されるため、周囲の雑音のみが集音された場合には、当該報知情報はユーザに提示されない。このような構成により、本実施形態に係る情報処理システムは、音声と雑音を識別し、音声が集音された場合に、ユーザに対してより早いタイミングで情報を報知することが可能となる。
 なお、本実施形態に係る情報処理システムは、前述した第1及び第2の実施形態に係る情報処理システムと組み合わせることも可能である。具体的な一例として、情報処理システムは、音声の検知結果に基づき報知情報を報知し、当該音声に対して音声認識処理や自然言語処理を施す際に、取得したコンテキスト情報が示す各種状態や状況に応じて、探索範囲を制御してもよい。また、このとき情報処理システムは、音声の認識結果に基づき出力情報を提示する際に、取得したコンテキスト情報が示す各種状態や状況に応じて、当該出力情報の提示態様を制御してもよい。
 <<5.ハードウェア構成>>
 次に、図19を参照しながら、前述した情報処理装置10及び20と、入出力装置30とのように、本実施形態に係る情報処理システム1を構成する情報処理装置900のハードウェア構成について、詳細に説明する。図19は、本開示の一実施形態に係る情報処理システム1を構成する情報処理装置900のハードウェア構成の一例を示す機能ブロック図である。
 本実施形態に係る情報処理システム1を構成する情報処理装置900は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置900は、更に、ホストバス907と、ブリッジ909と、外部バス911と、インタフェース913と、入力装置915と、出力装置917と、ストレージ装置919と、ドライブ921と、接続ポート923と、通信装置925とを備える。
 CPU901は、演算処理装置及び制御装置として機能し、ROM903、RAM905、ストレージ装置919又はリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般又はその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス907により相互に接続されている。なお、図2を参照して前述した、音響解析部101、言語解析部107、コンテキスト解析部109、及び出力制御部111は、例えば、CPU901により実現され得る。
 ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。また、外部バス911には、インタフェース913を介して、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923及び通信装置925が接続される。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー及びペダル等、ユーザが操作する操作手段である。また、入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器929であってもよい。さらに、入力装置915は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処理装置900のユーザは、この入力装置915を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。なお、図4を参照して前述した入力部310は、例えば、入力装置915により実現され得る。
 出力装置917は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置917は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト又はイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。なお、図6を参照して前述した出力部330は、例えば、出力装置917により実現され得る。
 ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ等を格納する。
 ドライブ921は、記録媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体927に記録を書き込むことも可能である。リムーバブル記録媒体927は、例えば、DVDメディア、HD-DVDメディア又はBlu-ray(登録商標)メディア等である。また、リムーバブル記録媒体927は、コンパクトフラッシュ(登録商標)(CF:CompactFlash)、フラッシュメモリ又はSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体927は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)又は電子機器等であってもよい。
 接続ポート923は、情報処理装置900に直接接続するためのポートである。接続ポート923の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート等がある。接続ポート923の別の例として、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポート等がある。この接続ポート923に外部接続機器929を接続することで、情報処理装置900は、外部接続機器929から直接各種のデータを取得したり、外部接続機器929に各種のデータを提供したりする。
 通信装置925は、例えば、通信網(ネットワーク)931に接続するための通信デバイス等で構成された通信インタフェースである。通信装置925は、例えば、有線若しくは無線LAN(Local Area Network)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置925は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置925に接続される通信網931は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。
 以上、本開示の実施形態に係る情報処理システム1を構成する情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。なお、図19では図示しないが、本実施形態に係る情報処理システム1を構成する情報処理装置900に対応する各種の構成を当然備える。
 なお、上述のような本実施形態に係る情報処理システム1を構成する情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。また、当該コンピュータプログラムを実行させるコンピュータの数は特に限定されない。例えば、当該コンピュータプログラムを、複数のコンピュータ(例えば、複数のサーバ等)が互いに連携して実行してもよい。なお、単数のコンピュータ、または、複数のコンピュータが連携するものを、「コンピュータシステム」とも称する。
 <<6.適用例>>
 続いて、本実施形態に係る情報処理システムの適用例について説明する。本開示の各実施形態に係る情報処理システムは、音声により情報を入力することが可能なシステムやデバイスに対して適用することが可能である。具体的な一例として、スマートフォン、タブレット端末、PC(Personal Computer)等のような情報処理装置に対して、本実施形態に係る情報処理システムを適用することも可能である。この場合には、例えば、当該情報処理装置を、前述した入出力装置30として構成してもよいし、入出力装置30及び情報処理装置10が一体的に構成された装置として構成してもよい。
 また、他の一例として、所謂カーナビゲーションシステム等のような車載システムに対して、本実施形態に係る情報処理システムが適用されてもよい。また、所謂スマート家電に対して、本実施形態に係る情報処理システムが適用されてもよい。
 また、上述した適用例はあくまで一例であり、音声により情報を入力することが可能なシステムやデバイスであれば、本実施形態に係る情報処理システムの適用先は特に限定されない。
 以上、本実施形態に係る情報処理システムの適用例について説明した。
 <<7.むすび>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、
 取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、
 を備える、情報処理装置。
(2)
 前記制御部は、前記コンテキスト情報に応じて実行される、当該音声を入力とした処理の種別に応じた態様で、報知情報を前記出力情報として前記出力部に報知させる、前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記コンテキスト情報に応じて、集音された前記音声を文字情報に変換するための探索範囲を制御する、前記(2)に記載の情報処理装置。
(4)
 前記制御部は、前記コンテキスト情報に応じて、集音された前記音声の録音に係るパラメータを制御する、前記(2)に記載の情報処理装置。
(5)
 前記取得部は、集音された前記音声に対する音声認識処理の確度に関する確度情報を取得し、
 前記制御部は、集音された前記音声に対応する前記コンテキスト情報と、当該音声に対応する前記確度情報とに応じた態様で、当該音声が変換された文字情報を前記出力情報として前記出力部に出力させる、
 前記(1)に記載の情報処理装置。
(6)
 前記制御部は、
 前記音声が変換された1以上の前記文字情報それぞれを、当該文字情報に対応する確度情報と閾値との比較結果に基づく態様で前記出力部に出力させ、
 前記コンテキスト情報に基づき、前記閾値を制御する、
 前記(5)に記載の情報処理装置。
(7)
 前記制御部は、前記音声が変換された1以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、対応する音声の発音を示す文字情報として前記出力部に出力させる、前記(6)に記載の情報処理装置。
(8)
 前記制御部は、前記音声が変換された1以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、原形または単数形の文字情報として前記出力部に出力させる、前記(6)に記載の情報処理装置。
(9)
 前記制御部は、前記音声が変換された1以上の前記文字情報のうち少なくとも一部の当該文字情報の前記確度情報が前記閾値以下の場合には、前記1以上の文字情報を音声に変換し、当該音声を前記出力部に出力させる、前記(6)に記載の情報処理装置。
(10)
 前記コンテキスト情報は、前記音声が変換された前記文字情報の確認に係るユーザの注意力の度合いに関する情報を含み、
 前記制御部は、前記注意力がより低いほど前記閾値がより高くなるように制御する、
 前記(6)に記載の情報処理装置。
(11)
 前記制御部は、前記注意力が閾値より低い場合に、前記文字情報を音声として所定の出力部に出力させる、前記(10)に記載の情報処理装置。
(12)
 前記制御部は、前記音声が変換された1以上の前記文字情報のうち、所定の態様で提示する少なくとも一部の前記文字情報を、当該所定の態様とは異なる態様で提示する前記文字情報と識別可能に提示する、前記(5)~(11)のいずれか一項に記載の情報処理装置。
(13)
 前記コンテキスト情報は、前記音声が集音される環境の状態に関する情報を含む、前記(1)~(12)のいずれか一項に記載の情報処理装置。
(14)
 前記コンテキスト情報は、入力情報の状態または当該入力情報の入力状況に関する情報を含む、前記(1)~(13)のいずれか一項に記載の情報処理装置。
(15)
 前記コンテキスト情報は、前記音声の発話の態様に関する情報を含む、前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記コンテキスト情報は、前記音声を発話したユーザの状態に関する情報を含む、前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記取得部は、集音された音響に含まれる前記音声の検知結果を取得し、
 前記制御部は、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させ、当該報知情報の報知後に、前記出力情報を出力させる、
 前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
 所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信する送信部と、
 外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示する出力部と、
 を備える、情報処理装置。
(19)
 コンピュータシステムが、
 音声の集音に関する期間におけるコンテキスト情報を取得することと、
 取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させることと、
 を含む、情報処理方法。
(20)
 コンピュータシステムが、
 所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信することと、
 外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示することと、
 を含む、情報処理方法。
(21)
 集音された音響に含まれる音声の検知結果を取得する取得部と、
 少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させる制御部と、
 を備える、情報処理装置。
(22)
 前記取得部は、前記音声の検知結果の取得後に、当該音声に対する音声認識処理の結果に基づく情報として第1の文字情報を取得し、
 前記制御部は、前記第1の文字情報に対する自然言語処理の結果に基づく第2の文字情報の提示前に、当該第1の文字情報を所定の出力部に出力させる、
 前記(21)に記載の情報処理装置。
(23)
 所定の集音部による音響の集音結果を外部装置に送信する送信部と、
 少なくとも外部装置から送信される、前記音響に含まれる音声に対する音声認識処理の結果に基づく情報の提示前に、前記音響に含まれる音声の検知結果に応じた制御に基づき、報知情報を報知する出力部と、
 を備える、情報処理装置。
(24)
 コンピュータシステムが、
 集音された音響に含まれる音声の検知結果を取得することと、
 少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させることと、
 を含む、情報処理方法。
(25)
 コンピュータシステムが、
 所定の集音部による音響の集音結果を外部装置に送信することと、
 前記音響に含まれる音声の検知結果に基づき、少なくとも外部装置から送信される前記音声に対する音声認識処理の結果に基づく情報の提示前に、報知情報を報知することと、
 を含む、情報処理方法。
 1   情報処理システム
 10  情報処理装置
 101 音響解析部
 103 音声検出部
 105 音声認識処理部
 107 言語解析部
 109 コンテキスト解析部
 111 出力制御部
 30  入出力装置
 310 入力部
 311 集音部
 313 検知部
 315 操作部
 330 出力部
 331 表示部
 333 音響出力部

Claims (20)

  1.  音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、
     取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、
     を備える、情報処理装置。
  2.  前記制御部は、前記コンテキスト情報に応じて実行される、当該音声を入力とした処理の種別に応じた態様で、報知情報を前記出力情報として前記出力部に報知させる、請求項1に記載の情報処理装置。
  3.  前記制御部は、前記コンテキスト情報に応じて、集音された前記音声を文字情報に変換するための探索範囲を制御する、請求項2に記載の情報処理装置。
  4.  前記制御部は、前記コンテキスト情報に応じて、集音された前記音声の録音に係るパラメータを制御する、請求項2に記載の情報処理装置。
  5.  前記取得部は、集音された前記音声に対する音声認識処理の確度に関する確度情報を取得し、
     前記制御部は、集音された前記音声に対応する前記コンテキスト情報と、当該音声に対応する前記確度情報とに応じた態様で、当該音声が変換された文字情報を前記出力情報として前記出力部に出力させる、
     請求項1に記載の情報処理装置。
  6.  前記制御部は、
     前記音声が変換された1以上の前記文字情報それぞれを、当該文字情報に対応する確度情報と閾値との比較結果に基づく態様で前記出力部に出力させ、
     前記コンテキスト情報に基づき、前記閾値を制御する、
     請求項5に記載の情報処理装置。
  7.  前記制御部は、前記音声が変換された1以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、対応する音声の発音を示す文字情報として前記出力部に出力させる、請求項6に記載の情報処理装置。
  8.  前記制御部は、前記音声が変換された1以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、原形または単数形の文字情報として前記出力部に出力させる、請求項6に記載の情報処理装置。
  9.  前記コンテキスト情報は、前記音声が変換された前記文字情報の確認に係るユーザの注意力の度合いに関する情報を含み、
     前記制御部は、前記注意力がより低いほど前記閾値がより高くなるように制御する、
     請求項6に記載の情報処理装置。
  10.  前記制御部は、前記注意力が閾値より低い場合に、前記文字情報を音声として所定の出力部に出力させる、請求項9に記載の情報処理装置。
  11.  前記制御部は、前記音声が変換された1以上の前記文字情報のうち、所定の態様で提示する少なくとも一部の前記文字情報を、当該所定の態様とは異なる態様で提示する前記文字情報と識別可能に提示する、請求項5に記載の情報処理装置。
  12.  前記コンテキスト情報は、前記音声が集音される環境の状態に関する情報を含む、請求項1に記載の情報処理装置。
  13.  前記取得部は、集音された音響に含まれる前記音声の検知結果を取得し、
     前記制御部は、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させ、当該報知情報の報知後に、前記出力情報を出力させる、
     請求項1に記載の情報処理装置。
  14.  所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信する送信部と、
     外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示する出力部と、
     を備える、情報処理装置。
  15.  コンピュータシステムが、
     音声の集音に関する期間におけるコンテキスト情報を取得することと、
     取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させることと、
     を含む、情報処理方法。
  16.  コンピュータシステムが、
     所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信することと、
     外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示することと、
     を含む、情報処理方法。
  17.  集音された音響に含まれる音声の検知結果を取得する取得部と、
     少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させる制御部と、
     を備える、情報処理装置。
  18.  所定の集音部による音響の集音結果を外部装置に送信する送信部と、
     少なくとも外部装置から送信される、前記音響に含まれる音声に対する音声認識処理の結果に基づく情報の提示前に、前記音響に含まれる音声の検知結果に応じた制御に基づき、報知情報を報知する出力部と、
     を備える、情報処理装置。
  19.  コンピュータシステムが、
     集音された音響に含まれる音声の検知結果を取得することと、
     少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させることと、
     を含む、情報処理方法。
  20.  コンピュータシステムが、
     所定の集音部による音響の集音結果を外部装置に送信することと、
     前記音響に含まれる音声の検知結果に基づき、少なくとも外部装置から送信される前記音声に対する音声認識処理の結果に基づく情報の提示前に、報知情報を報知することと、
     を含む、情報処理方法。
PCT/JP2017/012692 2016-06-23 2017-03-28 情報処理装置及び情報処理方法 WO2017221501A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018523333A JP6897678B2 (ja) 2016-06-23 2017-03-28 情報処理装置及び情報処理方法
CN201780037490.4A CN109313895A (zh) 2016-06-23 2017-03-28 信息处理装置和信息处理方法
US16/091,286 US10657956B2 (en) 2016-06-23 2017-03-28 Information processing device and information processing method
EP17814973.8A EP3477634B1 (en) 2016-06-23 2017-03-28 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-124092 2016-06-23
JP2016124092 2016-06-23

Publications (1)

Publication Number Publication Date
WO2017221501A1 true WO2017221501A1 (ja) 2017-12-28

Family

ID=60783348

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/012692 WO2017221501A1 (ja) 2016-06-23 2017-03-28 情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US10657956B2 (ja)
EP (1) EP3477634B1 (ja)
JP (1) JP6897678B2 (ja)
CN (1) CN109313895A (ja)
WO (1) WO2017221501A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09274497A (ja) * 1996-04-05 1997-10-21 Nissan Motor Co Ltd 音声認識装置
JP2001318915A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Ind Co Ltd フォント変換装置
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
JP2004294946A (ja) 2003-03-28 2004-10-21 Toshiba Corp 携帯型電子機器
JP2010204637A (ja) * 2009-02-03 2010-09-16 Denso Corp 音声認識装置、音声認識方法、及びナビゲーション装置
JP2014202857A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2015206998A (ja) * 2015-04-15 2015-11-19 京セラ株式会社 携帯端末、編集誘導プログラムおよび編集誘導方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05172619A (ja) * 1991-12-19 1993-07-09 Fujitsu Ltd 通知音声の音量制御回路
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US7716058B2 (en) * 2001-09-05 2010-05-11 Voice Signal Technologies, Inc. Speech recognition using automatic recognition turn off
US20040125396A1 (en) * 2002-12-19 2004-07-01 James Burke System and method for routing voice/video/fax mail
US20090182562A1 (en) * 2008-01-14 2009-07-16 Garmin Ltd. Dynamic user interface for automated speech recognition
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
WO2014107413A1 (en) * 2013-01-04 2014-07-10 Kopin Corporation Bifurcated speech recognition
KR102057629B1 (ko) * 2013-02-19 2020-01-22 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
JP6767796B2 (ja) * 2016-07-08 2020-10-14 株式会社日立情報通信エンジニアリング 通話管理システム及びその音声認識制御方法
US11093103B2 (en) * 2018-04-09 2021-08-17 Spatial Systems Inc. Augmented reality computing environments-collaborative workspaces

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09274497A (ja) * 1996-04-05 1997-10-21 Nissan Motor Co Ltd 音声認識装置
JP2001318915A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Ind Co Ltd フォント変換装置
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
JP2004294946A (ja) 2003-03-28 2004-10-21 Toshiba Corp 携帯型電子機器
JP2010204637A (ja) * 2009-02-03 2010-09-16 Denso Corp 音声認識装置、音声認識方法、及びナビゲーション装置
JP2014202857A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2015206998A (ja) * 2015-04-15 2015-11-19 京セラ株式会社 携帯端末、編集誘導プログラムおよび編集誘導方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3477634A4

Also Published As

Publication number Publication date
EP3477634B1 (en) 2020-09-16
EP3477634A1 (en) 2019-05-01
US20190122658A1 (en) 2019-04-25
JP6897678B2 (ja) 2021-07-07
CN109313895A (zh) 2019-02-05
JPWO2017221501A1 (ja) 2019-04-18
EP3477634A4 (en) 2019-07-31
US10657956B2 (en) 2020-05-19

Similar Documents

Publication Publication Date Title
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US9720644B2 (en) Information processing apparatus, information processing method, and computer program
JP6897677B2 (ja) 情報処理装置及び情報処理方法
US20140304606A1 (en) Information processing apparatus, information processing method and computer program
US20140303975A1 (en) Information processing apparatus, information processing method and computer program
KR20160060405A (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JPWO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6747434B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6585733B2 (ja) 情報処理装置
KR20210137118A (ko) 대화 단절 검출을 위한 글로벌 및 로컬 인코딩을 갖는 컨텍스트 풍부 주의 기억 네트워크를 위한 시스템 및 방법
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
WO2018079332A1 (ja) 情報処理装置及び情報処理方法
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2009210703A (ja) 音声認識装置
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
WO2017221501A1 (ja) 情報処理装置及び情報処理方法
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
US20240119930A1 (en) Artificial intelligence device and operating method thereof
WO2023210149A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
US20210082427A1 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018523333

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17814973

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017814973

Country of ref document: EP

Effective date: 20190123