WO2017195412A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- WO2017195412A1 WO2017195412A1 PCT/JP2017/004063 JP2017004063W WO2017195412A1 WO 2017195412 A1 WO2017195412 A1 WO 2017195412A1 JP 2017004063 W JP2017004063 W JP 2017004063W WO 2017195412 A1 WO2017195412 A1 WO 2017195412A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- unit
- appropriateness
- sound collection
- collection unit
- information processing
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 70
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 81
- 230000008859 change Effects 0.000 claims description 60
- 238000004891 communication Methods 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 description 46
- 238000010586 diagram Methods 0.000 description 25
- 230000004048 modification Effects 0.000 description 19
- 238000012986 modification Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Definitions
- the present disclosure relates to an information processing apparatus, an information processing method, and a program.
- speech recognition speech uttered by a user can be converted into text.
- Patent Document 1 listed below describes a technology in which a cloud-based application recognizes a voice command issued by a user and performs processing corresponding to the voice recognition result.
- the present disclosure proposes a new and improved information processing apparatus, information processing method, and program capable of adaptively processing the collected sound state.
- the acquisition unit that acquires the appropriateness calculated based on the sound collected by the sound collection unit, and the processing unit that performs processing based on the appropriateness acquired by the acquisition unit, An information processing apparatus is provided.
- the acquisition unit that acquires the sound collected by the sound collection unit
- the processing unit that performs processing according to the appropriateness calculated based on the sound acquired by the acquisition unit
- An information processing apparatus is provided.
- the computer performs processing based on the acquisition unit that acquires the appropriateness calculated based on the sound collected by the sound collection unit, and the appropriateness acquired by the acquisition unit.
- a program for functioning as a processing unit is provided.
- FIG. 14 is a flowchart illustrating a flow of “operation execution processing” according to a fourth embodiment.
- 10 is a flowchart showing a flow of Modification 1 of “operation execution processing”.
- 12 is a flowchart showing a flow of Modification 2 of “operation execution processing”.
- 14 is a flowchart showing a flow of Modification 3 of “operation execution processing”.
- It is explanatory drawing which showed the hardware structural example of the device 10 common to each embodiment. It is explanatory drawing which showed the example of the scene where a some user utters with respect to the robot 10 by the modification of this indication.
- a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral.
- a plurality of components having substantially the same functional configuration are distinguished as the device 10a and the device 10b as necessary.
- only the same reference numerals are given.
- the device 10a and the device 10b they are simply referred to as the device 10.
- the device 10-1, the device 10-2, the device 10-3, and the device 10-4 according to each embodiment to be described later may be collectively referred to as a device 10.
- the server 20-1, the server 20-2, the server 20-3, and the server 20-4 according to each embodiment may be collectively referred to as a server 20.
- FIG. 1 is an explanatory diagram showing the configuration of the information processing system according to the first embodiment.
- the information processing system according to the first embodiment includes a device 10-1, a server 20-1, and a communication network 30.
- the server 20-1 is an example of an information processing apparatus according to the present disclosure.
- the server 20-1 has a voice recognition function.
- the server 20-1 performs voice recognition (cloud voice recognition) on voice data received from the device 10-1 via the communication network 30 described later. Then, the server 20-1 transmits the voice recognition result to the device 10-1.
- the device 10-1 is an example of an information processing apparatus according to the present disclosure.
- the device 10-1 transmits the audio data collected by the sound collection unit 120 to the server 20-1.
- the device 10-1 transmits voice data of the user's utterance collected by the sound collection unit 120 to the server 20-1.
- the sound collecting unit 120 may be provided in the device 10-1, or may be connected to the device 10-1 so as to be communicable by wired communication or wireless communication.
- the device 10-1 can control the change of the position and / or posture of the sound collecting unit 120.
- FIG. 1 shows an example in which the device 10-1 is a headset, it is not limited to such an example.
- the device 10-1 may be a general-purpose PC (Personal Computer), a tablet-type terminal, a mobile phone such as a smartphone, a game machine, a portable music player, an agent device, a robot, or an eyeglass-type such as an HMD (Head Mounted Display).
- HMD Head Mounted Display
- Other wearable devices such as a device and a wristwatch type device may be used.
- the communication network 30 is a wired or wireless transmission path for information transmitted from a device connected to the communication network 30.
- the communication network 30 may include a public line network such as a telephone line network, the Internet, a satellite communication network, various LANs including the Ethernet (registered trademark), a wide area network (WAN), and the like.
- the communication network 30 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
- the configuration of the information processing system according to the first embodiment is not limited to the above-described example.
- FIG. 1 only one server 20-1 is illustrated, but the present invention is not limited to such an example.
- the function of the server 20-1 to be described later may be realized by a plurality of computers operating in cooperation.
- FIG. 1 only one device 10-1 is illustrated, but the present invention is not limited to such an example, and the information processing system may include a plurality of devices 10-1.
- adjusting the position and orientation of the sound collection unit 120 so that the accuracy of voice recognition is high requires a lot of time and effort from the user.
- the position and orientation of the sound collection unit 120 with respect to the user so that the accuracy of voice recognition is high differ depending on, for example, the state of sound around the sound collection unit 120 and the type of the sound collection unit 120. Therefore, it is difficult for the user to specify an appropriate position and posture of the sound collection unit 120.
- the device 10-1 and the server 20-1 have been created.
- the server 20-1 receives the user's voice collected by the sound collection unit 120 from the device 10-1, and the degree of appropriateness calculated based on the received voice. Accordingly, control information for changing the position and / or posture of the sound collecting unit 120 is transmitted to the device 10-1.
- the device 10-1 changes the position and / or orientation of the sound collection unit 120 based on the control information received from the server 20-1. Thereby, the position and / or orientation of the sound collection unit 120 can be automatically adjusted so that the accuracy of voice recognition of the sound collected by the sound collection unit 120 is improved.
- FIG. 2 is a functional block diagram showing a configuration example of the server 20-1 according to the first embodiment.
- the server 20-1 includes a control unit 200, a communication unit 220, and a storage unit 222.
- the control unit 200 generally controls the operation of the server 20-1 using hardware such as a CPU (Central Processing Unit) and a RAM (Random Access Memory) built in the server 20-1. As illustrated in FIG. 2, the control unit 200 includes a voice recognition unit 202, an appropriateness calculation unit 204, a control information generation unit 206, and a transmission control unit 208.
- the voice recognition unit 202 recognizes voice data received from the device 10-1, for example. Further, the voice recognition unit 202 transmits the result of the voice recognition to the appropriateness calculation unit 204 and the transmission control unit 208.
- the appropriateness calculation unit 204 calculates the appropriateness based on the speech recognition by the speech recognition unit 202.
- the appropriateness may be, for example, the appropriateness of the position and / or orientation of the sound collection unit 120 (hereinafter referred to as the appropriateness of the position of the sound collection unit, etc.).
- the appropriateness may be the appropriateness of the collected voice (for example, the reliability of the voice recognition result of the voice).
- the appropriateness is the appropriateness such as the position of the sound collecting unit will be mainly described.
- the appropriateness calculation unit 204 includes a calculation amount when the voice recognition unit 202 recognizes voice data received from the device 10-1, information on noise included in the voice data (for example, the amount of noise), And / or appropriateness such as the position of the sound collection unit is calculated based on the reliability of the speech recognition result. For example, the appropriateness calculation unit 204 determines the position of the sound collecting unit as the amount of calculation at the time of speech recognition is small, the amount of noise included in the speech data is small, and the reliability of the speech recognition result is high. The appropriateness degree is calculated so that the appropriateness degree becomes higher. Note that, for example, as the amount of noise included in the speech data to be recognized increases, or as the number of texts as recognition result candidates increases, the amount of calculation when the speech recognition unit 202 performs speech recognition may increase.
- the audio data received from the device 10-1 can basically be audio of an arbitrary utterance.
- the present invention is not limited to this example.
- the voice recognition function for example, when the voice recognition application installed in the device 10-1 is started
- the voice of the utterance of a predetermined activation word is used.
- Data may be received from device 10-1. Since the predetermined activation word is a predetermined text, the appropriateness calculation unit 204 can calculate the appropriateness such as the position of the sound collection unit more accurately than an arbitrary utterance. is there.
- the control information generation unit 206 determines the position and / or orientation of the sound collection unit 120 based on a comparison between the appropriateness such as the position of the sound collection unit calculated by the appropriateness calculation unit 204 and a predetermined threshold. Control information for changing to 1 is generated. For example, when the degree of appropriateness such as the calculated position of the sound collection unit is equal to or less than a predetermined threshold, the control information generation unit 206 determines to generate the control information. Further, when the calculated appropriateness such as the position of the sound collecting unit is larger than a predetermined threshold, the control information generation unit 206 determines not to generate the control information.
- the control information generation unit 206 controls the control information based on the change history such as the position of the sound collection unit 120 stored in the position change history DB 224 described later. Is generated. For example, the control information generation unit 206 compares the appropriateness such as the position of the sound collecting unit calculated this time with the appropriateness such as the position of the sound collecting unit calculated last time, and the control information generating unit 206 Control information is generated based on the change in position and / or orientation.
- the control information generating unit 206 causes the sound collecting unit 120 to Control information for moving in the same direction as the previous movement direction is generated. Further, when the appropriateness such as the position of the sound collecting unit calculated this time is less than the appropriateness such as the position of the sound collecting unit calculated last time, the control information generating unit 206 Control information for moving the sound collection unit 120 in the opposite direction or in a direction shifted by a predetermined angle is generated.
- the control information may be a value indicating the relative movement direction, movement amount, or posture change amount of the sound collection unit 120.
- control information generating unit 206 When the sound collecting unit 120 is moved for the first time, that is, when there is no change history, the control information generating unit 206 generates control information for moving the sound collecting unit 120 in a predetermined direction. Also good.
- the control information generation unit 206 can also generate control information based on the identification information of the device 10-1 received from the device 10-1. For example, a table in which the identification information of the device 10-1 is associated with the movable conditions (such as the movable direction and amount) of the sound collection unit 120 can be prepared in advance. Then, the control information generation unit 206 generates control information by specifying the movable condition of the sound collection unit 120 based on the received identification information of the device 10-1 and the registered contents of the table. .
- the position change history DB 224 is a database that stores the degree of appropriateness calculated in the past and the contents of past control information for each sound collection unit 120.
- FIG. 3 is an explanatory diagram showing a configuration example of the position change history DB 224.
- a device ID 2240 for example, a device ID 2240, a date 2242, an appropriateness 2244, and control information 2246 are associated with each other.
- the device ID 2240 identification information assigned in advance to the device 10-1 that is the transmission source of the audio data is recorded.
- the date and time 2242 is recorded with the date and time when the appropriateness such as the position of the sound collecting unit is calculated for the corresponding device 10-1.
- control information 2244 records the contents of the control information generated at the relevant date and time for the relevant device 10-1.
- FIG. 3 shows an example in which the control information is information for changing the position of the sound collection unit by a combination of two types of rotation angles ( ⁇ , ⁇ ).
- the control information is not limited to such an example, and the control information may be information that changes the position of the sound collection unit by a set of movement amounts (x, y, z) in the directions of three orthogonal axes, for example.
- the transmission control unit 208 is an example of a processing unit in the present disclosure.
- the transmission control unit 208 controls transmission of various types of information to other devices.
- the transmission control unit 208 causes the communication unit 220 to transmit the voice recognition result by the voice recognition unit 202 to the corresponding device 10-1.
- the transmission control unit 208 causes the communication unit 220 to transmit the control information generated by the control information generation unit 206 to the corresponding device 10-1.
- the transmission control unit 208 may cause the communication unit 220 to transmit the control information to the device 10-1 together with the voice recognition result.
- every time control information is generated during voice recognition by the voice recognition unit 202, the transmission control unit 208 may cause the communication unit 220 to sequentially transmit only the generated control information to the device 10-1. Good.
- the communication unit 220 is an example of an acquisition unit in the present disclosure.
- the communication unit 220 transmits and receives information to and from other devices via the communication network 30, for example.
- the communication unit 220 receives audio data from the device 10-1.
- the communication unit 220 transmits control information and a voice recognition result to the device 10-1 according to the control of the transmission control unit 208.
- the storage unit 222 stores various data and various software.
- the storage unit 222 stores a position change history DB 224 and the like.
- the configuration of the server 20-1 according to the first embodiment is not limited to the above-described example.
- the location change history DB 224 may be provided in another device (not shown) that can communicate with the server 20-1, instead of being provided in the server 20-1.
- FIG. 4 is a functional block diagram showing a configuration example of the device 10-1 according to the first embodiment.
- the device 10-1 includes a control unit 100, a sound collection unit 120, a drive unit 122, a communication unit 124, and a storage unit 126.
- the control unit 100 generally controls the operation of the device 10-1 using hardware such as a CPU 150 and a RAM 154, which will be described later, built in the device 10-1. As illustrated in FIG. 4, the control unit 100 includes a transmission control unit 102 and a drive control unit 104.
- the transmission control unit 102 controls transmission of various types of information to other devices.
- the transmission control unit 102 causes the communication unit 124 to transmit the audio data collected by the sound collection unit 120 and the identification information of the device 10-1 to the server 20-1.
- the drive control unit 104 is an example of a processing unit in the present disclosure.
- the drive control unit 104 causes the drive unit 122 to change the position and / or posture of the sound collection unit 120 according to the control information received from the server 20-1.
- FIG. 5 is an explanatory diagram showing an example of changing the position of the sound collecting unit 120.
- FIG. 5 shows an example of changing the position of the sound collection unit 120 when the control information 32 is received from the server 20-1.
- the drive control unit 104 determines the position of the sound collecting unit 120 by “+3” with respect to ⁇ and “ ⁇ 2” with respect to ⁇ based on the current position of the sound collecting unit 120 according to the control information 32.
- the drive unit 122 is controlled so as to change.
- the sound collection unit 120 detects external sound (air vibration) and converts it into an electrical signal. The sound collecting unit 120 transmits the collected sound to the control unit 100.
- the drive unit 122 changes the position and / or orientation of the sound collection unit 120 according to the control of the drive control unit 104.
- the drive unit 122 includes, for example, an actuator that can change the position and / or posture of the sound collection unit 120.
- the communication unit 124 is an example of an acquisition unit in the present disclosure.
- the communication unit 124 transmits and receives information to and from other devices via the communication network 30, for example.
- the communication unit 124 receives control information and a speech recognition result from the server 20-1.
- the communication unit 124 transmits the voice data and the identification information of the device 10-1 to the server 20-1 according to the control of the transmission control unit 102.
- the storage unit 126 stores various data and various software.
- the positional relationship between the user's mouth and the sound collection unit 120 differs depending on the user. Therefore, depending on the user, when the headset 10-1a is worn, the sound collection unit 120 can be positioned at an inappropriate position in terms of accuracy of voice recognition. According to this application example, the position of the sound collection unit 120 can be automatically adjusted to a position optimal for the user wearing the headset 10-1a.
- the headset 10-1a identifies the sound data collected by the sound collection unit 120 and the headset 10-1a. Information is transmitted to the server 20-1.
- the server 20-1 performs voice recognition on the received voice data, and calculates the appropriateness such as the position of the sound collection unit based on the voice recognition. Further, the server 20-1 recognizes that the sound collection unit 120 can move only in the vertical direction based on the received identification information of the headset 10-1a. If the calculated appropriateness is greater than a predetermined threshold, the server 20-1 determines not to generate control information, and transmits only the speech recognition result to the corresponding headset 10-1a. To do.
- the server 20-1 stores the position of the sound collecting unit 120 related to the corresponding headset 10-1a stored in the position change history DB 224, and the like. Based on the change history, control information for moving the sound collection unit 120 in either the upper or lower direction is generated. For example, when the appropriateness such as the position of the sound collection unit calculated this time is equal to or more than the appropriateness such as the position of the sound collection unit calculated last time, the server 20-1 uses the same direction as the previous movement direction. Control information for moving the sound collecting unit 120 is generated. Further, when the appropriateness such as the position of the sound collecting unit calculated this time is less than the appropriateness such as the position of the sound collecting unit calculated last time, the control information generating unit 206 Control information for moving the sound collection unit 120 in the opposite direction is generated.
- the server 20-1 transmits the generated control information and the voice recognition result to the corresponding headset 10-1a. Thereafter, the headset 10-1a changes the position of the sound collection unit 120 in accordance with the received control information.
- the headset 10-1a can gradually adjust the position of the sound collecting unit 120 so that the position of the sound collecting unit 120 becomes an optimum position for the user. .
- FIG. 6 is a sequence diagram illustrating the overall flow of the operation according to the first embodiment. The operation shown in FIG. 6 is basically executed every time the user speaks to the sound collection unit 120.
- the sound collection unit 120 of the device 10-1 collects the sound emitted by the user (S101).
- the communication unit 124 transmits the audio data collected in S101 and the identification information of the device 10-1 to the server 20-1 according to the control of the transmission control unit 102 (S103).
- the voice recognition unit 202 of the server 20-1 performs voice recognition on the received voice data (S105).
- the appropriateness calculation unit 204 calculates the appropriateness such as the position of the sound collection unit based on the speech recognition in S105 and a predetermined calculation formula (S107).
- the appropriateness calculation unit 204 can also calculate the appropriateness such as the position of the sound collection unit in the middle of S105.
- control information generation unit 206 determines whether or not the appropriateness calculated in S107 is greater than a predetermined threshold (S109). When the calculated appropriateness is larger than the predetermined threshold (S109: Yes), the communication unit 220 transmits only the speech recognition result in S105 to the device 10-1 according to the control of the transmission control unit 208 (S111). ). Thereafter, this operation ends.
- control information generation unit 206 performs a “control information generation process” described later (S113).
- the communication unit 220 transmits the speech recognition result in S105 and the control information generated in S113 to the device 10-1 according to the control of the transmission control unit 208 (S115).
- the drive control unit 104 of the device 10-1 causes the drive unit 122 to change the position and / or orientation of the sound collection unit 120 according to the received control information (S117).
- control information generation unit 206 specifies the previous appropriateness level for the device 10-1 by referring to the position change history DB 224. Then, the control information generation unit 206 determines whether or not the appropriateness calculated in S107 is equal to or higher than the appropriateness calculated last time (S151). When the appropriateness calculated in S107 is equal to or more than the appropriateness calculated last time (S151: Yes), the control information generating unit 206 moves the position of the sound collecting unit 120 in the same direction as the previous moving direction. The control information for making it generate is produced
- control information generating unit 206 when the appropriateness calculated in S107 is less than the appropriateness calculated in the previous time (S151: No), the control information generating unit 206 has a direction opposite to the previous movement direction, or Then, control information for moving the sound collection unit 120 in a direction shifted by a predetermined angle is generated (S157). Thereafter, the control information generation unit 206 performs the process of S155 described above.
- the server 20-1 receives the user's voice collected by the sound collection unit 120 from the device 10-1, and based on the received voice. Control information for changing the position and / or orientation of the sound collection unit 120 is transmitted to the device 10-1 according to the degree of appropriateness calculated in the above.
- the device 10-1 changes the position and / or posture of the sound collection unit 120 according to the control information received from the server 20-1. For this reason, the position and / or orientation of the sound collection unit 120 can be automatically adjusted so that the accuracy of voice recognition of the sound collected by the sound collection unit 120 is improved. For example, the user can adjust the position and / or posture of the sound collection unit 120 appropriately only by repeating the utterance.
- the device 10-1 can appropriately change the position and / or orientation of the sound collection unit 120 only by using the control information received from the server 20-1. Is possible. Therefore, for example, special processing such as the device 10-1 determining the change direction by itself is unnecessary. As a result, the power consumption of the device 10-1 is saved.
- the processing amount of speech recognition by the server 20-1 is reduced.
- the position and / or orientation of the sound collecting unit 120 can be appropriately changed using only the sound collected by the single sound collecting unit 120. For example, the process of determining the direction of the user who speaks using the sound collection results obtained by the plurality of sound collection units 120 as in a known technique becomes unnecessary. Therefore, the position and / or posture of the sound collection unit 120 can be appropriately changed with a simple hardware configuration as compared with known techniques.
- Second Embodiment >> The first embodiment has been described above. In the first embodiment, an example has been described in which the server 20-1 generates control information for changing the position and / or posture of the sound collection unit 120 and transmits the control information to the device 10-1.
- the device 10-2 according to the second embodiment has the position of the sound collecting unit 120 according to the appropriateness such as the position of the sound collecting unit received from the server 20-2 according to the second embodiment. And / or the posture can be changed. In the following, only contents different from the first embodiment will be described, and description of overlapping contents will be omitted.
- FIG. 8 is a functional block diagram showing a configuration example of the server 20-2 according to the second embodiment.
- the server 20-2 does not have the control information generation unit 206 as compared with the server 20-1 (shown in FIG. 2).
- the position change history DB 224 is basically not provided.
- the transmission control unit 208 causes the communication unit 220 to transmit the appropriateness such as the position of the sound collecting unit calculated by the appropriateness calculation unit 204 to the corresponding device 10-2.
- the transmission control unit 208 may cause the communication unit 220 to transmit the appropriateness such as the position of the sound collection unit to the corresponding device 10-1 together with the voice recognition result, or the voice by the voice recognition unit 202 During the recognition process, only the appropriateness such as the position of the sound collection unit may be sequentially transmitted to the corresponding device 10-1 by the communication unit 220.
- FIG. 9 is a functional block diagram showing a configuration example of the device 10-2 according to the second embodiment. As shown in FIG. 9, the components included in the device 10-2 are the same as those of the device 10-1 (shown in FIG. 4).
- the transmission control unit 102 basically causes the communication unit 124 to transmit only the audio data collected by the sound collection unit 120 to the server 20-2. That is, basically, the identification information of the device 10-2 is not transmitted to the server 20-2.
- the drive control unit 104 according to the second embodiment, based on the comparison between the appropriateness such as the position of the sound collecting unit and the predetermined threshold received from the server 20-2, and the position of the sound collecting unit 120 and / or The posture is changed by the drive unit 122. For example, when the received degree of appropriateness such as the position of the sound collection unit is equal to or less than a predetermined threshold, the drive control unit 104 causes the drive unit 122 to change the position and / or orientation of the sound collection unit 120. decide. Further, when the received degree of appropriateness such as the position of the sound collection unit is larger than a predetermined threshold, the drive control unit 104 does not cause the drive unit 122 to change the position and / or orientation of the sound collection unit 120. decide.
- the drive control unit 104 When it is determined to change the position or the like of the sound collection unit 120, the drive control unit 104 is based on a change history such as the position of the sound collection unit 120 stored in a position change history DB 128 described later. Thus, the position and / or orientation of the sound collection unit 120 is changed by the drive unit 122. For example, the drive control unit 104 compares the appropriateness such as the position of the sound collecting unit received this time with the appropriateness such as the position of the sound collecting unit received last time, and the position of the previous sound collecting unit 120. In addition, the position and / or posture of the sound collecting unit 120 is changed by the driving unit 122 based on the change contents of the posture.
- the drive control unit 104 changes the sound collecting unit 120 to the previous time.
- the drive unit 122 is moved in the same direction as the moving direction.
- the drive control unit 104 is opposite to the previous moving direction.
- the sound collecting unit 120 is moved to the driving unit 122 in a direction shifted by a predetermined angle.
- the drive control unit 104 may move the sound collection unit 120 to the drive unit 122 in a predetermined direction.
- the position change history DB 128 is a database in which the degree of appropriateness such as the position of the sound collection unit received in the past and the change contents such as the position of the sound collection unit 120 are stored.
- FIG. 10 is an explanatory diagram showing a configuration example of the position change history DB 128.
- the position change history DB 128 for example, date 1280, appropriateness 1282, and control content 1284 are associated with each other.
- the date / time 1280 the date / time when the appropriateness such as the position of the sound collecting unit is received is recorded.
- the appropriateness level 1282 the appropriateness value such as the position of the sound collecting unit received at the corresponding date and time is recorded.
- the control content 1284 records the control content executed by the drive control unit 104 at the relevant date and time. Note that the content recorded in the control content 1284 may be the same as the control information 2246 shown in FIG.
- the device 10-2 is a headset 10-2a including the sound collection unit 120, and the sound collection unit 120 is only in the vertical direction. An example of movement is described.
- the headset 10-2a transmits only the sound data collected by the sound collection unit 120 to the server 20-2.
- the server 20-2 performs voice recognition on the received voice data, and calculates the appropriateness such as the position of the sound collection unit based on the voice recognition. Then, the server 20-2 transmits the calculated appropriateness and the voice recognition result to the corresponding headset 10-2a.
- the headset 10-2a determines not to change the position and / or orientation of the sound collection unit 120 to the drive unit 122.
- the headset 10-2a moves up and down based on the change history such as the position of the sound collecting unit 120 stored in the position change history DB 128.
- the sound collection unit 120 is moved in either direction. For example, when the appropriateness such as the position of the sound collection unit received this time is equal to or more than the appropriateness such as the position of the sound collection unit received last time, the headset 10-2a is the same as the previous movement direction.
- the sound collection unit 120 is moved in the direction. Further, when the appropriateness such as the position of the sound collecting unit received this time is less than the appropriateness such as the position of the sound collecting unit received last time, the headset 10-2a
- the sound collection unit 120 is moved in the opposite direction.
- the server 20-2 and the headset 10-2a repeat the above processing. Therefore, when the user repeats the utterance, the headset 10-2a can gradually adjust the position of the sound collection unit 120 so that the position of the sound collection unit 120 becomes an optimum position for the user. .
- FIG. 11 is a sequence diagram illustrating an overall flow of operations according to the second embodiment.
- the operation shown in FIG. 11 is basically executed every time the user speaks to the sound collection unit 120. 11 is the same as S101 according to the first embodiment (shown in FIG. 6).
- the communication unit 124 of the device 10-1 transmits only the audio data collected in S201 to the server 20-2 according to the control of the transmission control unit 102 (S203). 11 are the same as S105 to S107 (shown in FIG. 6).
- the communication unit 220 of the server 20-2 determines the appropriateness of the voice recognition result in S205 and the position of the sound collection unit calculated in S207 in accordance with the control of the transmission control unit 208, and the device 10-2. (S209).
- the drive control unit 104 of the device 10-2 determines whether or not the received appropriateness is greater than a predetermined threshold (S211). If the received appropriateness is greater than the predetermined threshold (S211: Yes), the device 10-2 ends this operation.
- the drive control unit 104 performs a “sound collecting unit position changing process” described later (S213).
- the drive control unit 104 specifies the appropriateness received last time by referring to the position change history DB 128. And the drive control part 104 determines whether the appropriateness received by S209 is more than the appropriateness received last time (S251). When the appropriateness received in S209 is equal to or higher than the appropriateness received last time (S251: Yes), the drive control unit 104 drives the position of the sound collecting unit 120 in the same direction as the previous movement direction. Move to 122 (S253). Then, the drive control unit 104 associates the appropriateness received in S209 with the change contents such as the position of the sound collection unit 120, and stores them in the position change history DB 128 (S255).
- the drive control unit 104 when the appropriateness received in S209 is less than the appropriateness received last time (S251: No), the drive control unit 104 has a direction opposite to the previous movement direction or a predetermined angle. The sound collection unit 120 is moved to the drive unit 122 in a direction shifted by a certain amount (S257). Thereafter, the drive control unit 104 performs the process of S255 described above.
- the server 20-2 receives the user's voice collected by the sound collection unit 120 from the device 10-2, and based on the received voice. The appropriateness calculated in this way is transmitted to the device 10-2.
- the device 10-2 changes the position and / or orientation of the sound collection unit 120 according to the appropriateness received from the server 20-2. For this reason, the position and / or orientation of the sound collection unit 120 can be automatically adjusted so that the accuracy of voice recognition of the sound collected by the sound collection unit 120 is improved.
- the server 20-2 recognizes the type of the device 10-2, and stores the appropriateness such as the calculated position of the sound collecting unit. There is no need to do. Therefore, the processing amount of the server 20-2 is reduced.
- the device 10-3 according to the third embodiment is configured such that the position of the sound collection unit 120 is determined according to the appropriateness of the sound collection unit received from the server 20-3 according to the third embodiment. It is also possible to display a warning display that prompts the user to change the posture and to output a warning sound. Accordingly, the user can appropriately adjust the position and / or orientation of the sound collection unit 120 so that the accuracy of voice recognition of the sound collected by the sound collection unit 120 is improved.
- a warning display that prompts the user to change the posture and to output a warning sound.
- FIG. 13 is a functional block diagram showing a configuration example of the device 10-3 according to the third embodiment. As illustrated in FIG. 13, the device 10-3 further includes an output unit 130 and does not include the driving unit 122, as compared with the device 10-2 illustrated in FIG. 9.
- control unit 100 The control unit 100 according to the third embodiment further includes an output control unit 106 and does not include the drive control unit 104, as compared with the second embodiment (shown in FIG. 9).
- the output control unit 106 is an example of a processing unit in the present disclosure.
- the output control unit 106 causes the output unit 130 described later to output various types of information such as text, images, and sounds. For example, when the appropriateness such as the position of the sound collection unit is received from the server 20-3, the output control unit 106 causes the output unit 130 to output information according to the received appropriateness.
- the output control unit 106 displays on the display screen the appropriateness such as the received position of the sound collection unit, or causes the output unit 130 to output a sound that reads out the appropriateness.
- the output control unit 106 may display text indicating the appropriateness level on the display screen. Note that the output control unit 106 may display text indicating the appropriateness level on the display screen only when the appropriateness level is equal to or less than a predetermined threshold value.
- the output control unit 106 may display a display indicating the degree of appropriateness such as the received position of the sound collecting unit on the display screen. For example, when the appropriateness is greater than a predetermined threshold, the output control unit 106 may display text indicating that the microphone position is good on the display screen as illustrated in FIG. 14B. Good. Further, when the appropriateness is equal to or less than a predetermined threshold, the output control unit 106 may display text indicating “the microphone position is bad” on the display screen.
- the output control unit 106 displays a warning display on the display screen based on a comparison between the received appropriateness such as the position of the sound collecting unit and a predetermined threshold value, or outputs a warning sound to the output unit 130. It is also possible to output. For example, when the appropriateness is equal to or less than a predetermined threshold, the output control unit 106 displays a text prompting the user to change the position and / or orientation of the sound collection unit 120 as shown in FIG. 14C. To display. If the appropriateness is greater than a predetermined threshold, the output control unit 106 does not display the text on the display screen.
- the output control unit 106 is based on the measurement result of the posture of the device 10-3 (or the direction in which the sound collection unit 120 is directed) and the change history of the position of the sound collection unit 120, etc. It is also possible to display on the display screen the recommended movement direction of the sound collection unit 120 (based on the current position and orientation of the device 10-3).
- the attitude of the device 10-3 can be measured by, for example, a gyro sensor, a triaxial acceleration sensor, a geomagnetic sensor, or the like built in the device 10-3.
- the change history such as the position of the sound collecting unit 120 can be stored in the position change history DB 128 stored in the storage unit 126, for example.
- the output control unit 106 determines the recommended movement direction of the sound collection unit 120. If the appropriateness of the position of the sound collecting unit received this time is less than the appropriateness of the position of the sound collecting unit received last time, the output control unit 106 is opposite to the previous moving direction. Or a direction shifted by a predetermined angle is determined as a recommended movement direction of the sound collecting unit 120. Then, the output control unit 106 displays a display indicating the determined recommended movement direction on the display screen.
- the output control unit 106 may display text such as “Please move the microphone to the right by 20 cm” on the display screen. .
- the output control unit 106 displays an image of an arrow indicating a recommended moving direction of the sound collection unit 120 (based on the current position and orientation of the device 10-3) on the display screen. It may be displayed.
- the output unit 130 displays a display screen or outputs sound according to the control of the output control unit 106.
- the output unit 130 includes a display unit that performs display and an audio output unit that outputs audio.
- the display unit includes, for example, a display composed of an LCD (Liquid Crystal Display), an OLED (Organic Light Emitting Diode), and an LED (Light Emitting Diode).
- the audio output unit includes a speaker and the like.
- the user in a scene where voice recognition is used using the smartphone 10-3a, the user usually speaks while holding the smartphone 10-3a or utters while placing the smartphone 10-3a on the desk. For this reason, the sound collection unit 120 may be disposed at an inappropriate position in terms of accuracy of voice recognition. According to this application example, it is possible to notify the user whether or not the position of the sound collection unit 120 is a position suitable for voice recognition.
- the smartphone 10-3a transmits only the sound data collected by the sound collection unit 120 to the server 20-3.
- the server 20-3 performs voice recognition on the received voice data, and calculates the appropriateness such as the position of the sound collection unit based on the voice recognition. Then, the server 20-3 transmits the calculated appropriateness and the voice recognition result to the corresponding smartphone 10-3a.
- the smartphone 10-3a compares the received appropriateness with a predetermined threshold value.
- the smartphone 10-3a displays a warning display that prompts the user to change the position and / or orientation of the sound collection unit 120 on the display screen.
- the server 20-3 and the smart phone 10-3a repeat the process mentioned above. Therefore, by repeating the utterance and the adjustment of the position of the smartphone 10-3a, the user gradually adjusts the position of the sound collection unit 120 so that the position of the sound collection unit 120 becomes the optimum position for the user. I can go.
- FIG. 15 is a sequence diagram illustrating an overall flow of operations according to the third embodiment.
- the operation shown in FIG. 15 is basically executed every time the user speaks to the sound collection unit 120. Further, S301 to S309 shown in FIG. 15 are the same as S201 to S209 according to the second embodiment (shown in FIG. 11).
- the output control unit 106 of the device 10-3 determines whether or not the appropriateness such as the position of the sound collection unit received in S309 is greater than a predetermined threshold (S311). When the received appropriateness is larger than the predetermined threshold (S311: Yes), the device 10-3 ends this operation.
- the output control unit 106 displays a warning display or warning sound that prompts the user to change the position and / or orientation of the sound collection unit 120. Is output to the output unit 130 (S313).
- the device 10-3 allows the user to change the position and / or posture of the sound collection unit 120 according to the appropriateness received from the server 20-3. Display a warning display to prompt or output a warning sound. For this reason, the user can adjust the position and / or orientation of the sound collection unit 120 appropriately so that the accuracy of voice recognition of the sound collected by the sound collection unit 120 is improved.
- the device 10-4 according to the fourth embodiment corresponds to the voice recognition result according to the appropriateness of the position of the sound collection unit received from the server 20-4 according to the fourth embodiment. It is possible to decide whether or not to allow the operation. Thereby, when the appropriateness such as the position of the sound collecting unit is low, that is, when the possibility that the user's voice is erroneously recognized is high, the operation based on the voice recognition can be appropriately limited.
- the appropriateness such as the position of the sound collecting unit is low, that is, when the possibility that the user's voice is erroneously recognized is high
- the operation based on the voice recognition can be appropriately limited.
- only contents different from those of the second embodiment will be described.
- FIG. 16 is an explanatory diagram showing a configuration of an information processing system according to the fourth embodiment. As shown in FIG. 16, the information processing system according to the fourth embodiment further includes an external device 50 as compared to the first embodiment (shown in FIG. 1).
- the external device 50 is a device that can communicate with the device 10-4 via the communication network 30, for example.
- the external device 50 can receive the instruction information from the device 10-4, and can perform processing according to the received instruction information. For example, the external device 50 switches the power source between ON and OFF according to the received instruction information, or executes a function indicated by the instruction information.
- FIG. 16 shows an example in which the external device 50 is a car, it is not limited to such an example.
- the external device 50 includes a robot (such as a drone), a home appliance (such as an air conditioner, a lighting device, an electronic lock, a water heater, a stove), a server (such as a mail server), a general-purpose PC, a tablet terminal, and a smartphone. It may be a mobile phone, a game machine, a television receiver, or the like.
- 16 shows an example in which the sound collection unit 120 is included in the device 10-4. However, the present invention is not limited to this example, and the sound collection unit 120 is disposed in the external device 50 (internal or external). Also good. 16 shows an example in which the user 2 (using the device 10-4) is located away from the external device 50. However, the present invention is not limited to this example, and the user 2 is located inside the external device 50. It is also possible to locate.
- FIG. 17 is a functional block diagram showing a configuration example of the device 10-4 according to the fourth embodiment.
- the control unit 100 according to the fourth embodiment further includes an operation permission unit 108 as compared to the second embodiment (shown in FIG. 9).
- the operation permission unit 108 is an example of a processing unit in the present disclosure.
- the operation permission unit 108 determines whether to permit the operation specified from the voice recognition result received from the server 20-4 based on a predetermined condition. For example, the operation permission unit 108 first determines whether or not the voice recognition result received from the server 20-4 includes a command text. When the voice recognition result includes the text of the command, the operation permission unit 108 specifies an operation corresponding to the voice recognition result. Then, the operation permission unit 108 determines whether to permit execution of the specified operation based on the comparison between the appropriateness such as the position of the sound collection unit received from the server 20-2 and a predetermined threshold value. To do.
- the operation permission unit 108 determines whether or not to permit execution of the operation based on whether or not the identified operation is an operation on the external device 50. As an example, if the specified operation is an operation on the external device 50 and the received degree of appropriateness such as the position of the sound collection unit is equal to or less than a predetermined threshold, the operation permission unit 108 permits the operation. do not do. In addition, when the appropriateness of the received position of the sound collecting unit is larger than a predetermined threshold, and when the specified operation is not an operation on the external device 50 (for example, an operation on the device 10-4). The operation permission unit 108 permits the operation.
- the operation permission unit 108 determines whether the identified operation is an operation related to the behavior of the external device 50 or the device 10-4 (hereinafter, may be referred to as a control system operation). Decide whether to allow execution.
- the operation of the control system can include, for example, operations related to acceleration, steering, and braking.
- the operation permission unit 108 does not permit the operation.
- the appropriateness such as the received position of the sound collecting unit is larger than a predetermined threshold
- the specified operation is an operation other than the control system
- the operation permission unit 108 permits the operation. To do.
- the operation permission unit 108 may determine whether the identified operation is a transmission operation of information addressed to another user (for example, an e-mail, SMS (Short Message Service), or SNS (Social Networking Service) message). Based on whether or not, whether or not to permit execution of the operation is determined. For example, when the voice recognition result is a text such as “mail transmission!”, The operation permission unit 108 specifies that the operation corresponding to the voice recognition result is a mail transmission operation.
- the operation permission unit 108 Do not allow operation.
- the degree of appropriateness such as the position of the received sound collecting unit is larger than a predetermined threshold, and when the specified operation is an operation other than a transmission operation of information addressed to other users, an operation permission unit 108 permits the operation.
- the operation permission unit 108 includes the received degree of appropriateness such as the position of the sound collection unit, the first threshold value, and the second threshold value (which is smaller than the first threshold value). Based on the comparison, it is also possible to determine whether to permit execution of the specified operation. For example, when the degree of appropriateness such as the received position of the sound collection unit is equal to or greater than a first threshold and greater than the second threshold, the operation permission unit 108 determines whether or not the specified operation can be performed. It may be determined whether to permit the operation based on the inquiry to the user and the user's answer to the inquiry. As an example, the operation permission unit 108 makes an inquiry to the user by displaying a UI for inquiry regarding execution of the corresponding operation on the display screen.
- the operation permission unit 108 permits the corresponding operation.
- the operation permission unit 108 does not permit the corresponding operation.
- the operation corresponding to the voice recognition result is not executed. Further, when the appropriateness is equal to or higher than the first threshold value and larger than the second threshold value, the user is confirmed as to whether or not the operation corresponding to the voice recognition result can be executed. Further, when the appropriateness is equal to or higher than the second threshold, an operation corresponding to the voice recognition result is executed without confirming with the user. Therefore, the operation based on the voice recognition can be appropriately limited according to the possibility that the voice is erroneously recognized.
- the transmission control unit 102 When the operation specified by the operation permission unit 108 is an operation on the external device 50, the transmission control unit 102 according to the fourth embodiment transmits instruction information for instructing execution of the operation to the external device 50. 124 can be transmitted. For example, the transmission control unit 102 may cause the communication unit 124 to transmit the instruction information to the external device 50 only when the operation is permitted by the operation permission unit 108.
- FIG. 18 is a sequence diagram showing the overall flow of the operation according to the fourth embodiment.
- the operation shown in FIG. 18 is basically executed every time the user speaks to the sound collection unit 120.
- S401 to S409 shown in FIG. 18 are the same as S201 to S209 according to the second embodiment (shown in FIG. 11).
- the device 10-4 After S409, the device 10-4 performs an “operation execution process” to be described later (S411).
- S413 to S415 shown in FIG. 18 are the same as the processing of S211 to S213 according to the second embodiment (shown in FIG. 11).
- the operation permission unit 108 first determines whether or not the appropriateness received in S409 is greater than a predetermined threshold (S451). When the received appropriateness is larger than the predetermined threshold (S451: Yes), the operation permission unit 108 executes an operation corresponding to the received voice recognition result (S453). On the other hand, when the received appropriateness is equal to or less than the predetermined threshold (S451: No), the operation permission unit 108 does not execute an operation corresponding to the received voice recognition result (S455).
- the operation permission unit 108 determines whether the appropriateness received in S409 is greater than a predetermined threshold value. Determination is made (S505). When the received appropriateness is greater than the predetermined threshold (S505: Yes), the operation permission unit 108 permits the specified operation. Then, the communication unit 124 transmits instruction information for instructing execution of the operation to the external device 50 under the control of the transmission control unit 102. Thereafter, the external device 50 executes the corresponding operation according to the received instruction information (S507). Then, the “operation execution process” ends.
- the operation permission unit 108 does not permit the specified operation (S509). Then, the “operation execution process” ends.
- the operation permission unit 108 specifies an operation corresponding to the received voice recognition result. Then, the operation permission unit 108 determines whether or not the identified operation is a control system operation for the external device 50 or the device 10-4 (S601). When the identified operation is not a control system operation (S601: No), the operation permission unit 108 executes the identified operation (S603). Then, the “operation execution process” ends.
- the operation permission unit 108 determines whether or not the appropriateness received in S409 is greater than a predetermined threshold. (S605). When the received appropriateness is larger than the predetermined threshold (S605: Yes), the operation permission unit 108 permits the specified operation. For example, when the corresponding operation is an operation on the external device 50, the device 10-4 transmits instruction information for instructing execution of the operation to the external device 50, and the external device 50 receives the received instruction information. Execute the corresponding operation according to. If the corresponding operation is an operation on the device 10-4, the device 10-4 executes the corresponding operation (S607). Then, the “operation execution process” ends.
- the operation permission unit 108 does not permit the specified operation (S609). Then, the “operation execution process” ends.
- Modification 3 of the “operation execution process” will be described with reference to FIG. As illustrated in FIG. 22, first, the operation permission unit 108 specifies an operation corresponding to the received voice recognition result. Then, the operation permission unit 108 determines whether or not the identified operation is an e-mail transmission operation (S701). When the identified operation is not an email sending operation (S701: No), the operation permission unit 108 executes the identified operation (S703). Then, the “operation execution process” ends.
- the operation permission unit 108 determines whether or not the appropriateness received in S409 is greater than the first threshold value. Determination is made (S705). When the received appropriateness is larger than the first threshold (S705: Yes), the operation permission unit 108 permits the specified operation. Then, the transmission control unit 102 causes the communication unit 124 to transmit the electronic mail designated by the operation to the transmission destination designated by the operation (S707). Then, the “operation execution process” ends.
- the operation permission unit 108 next determines whether or not the received appropriateness is greater than the second threshold. Determination is made (S709).
- the operation permission unit 108 inquires of the user whether or not the specified operation can be executed (S711). When an answer to the effect of accepting the operation is input in response to the inquiry (S713: Yes), the operation permission unit 108 performs the above-described processing after S707.
- the device 10-4 determines whether or not the sound is received from the server 20-4 according to the comparison between the appropriateness such as the position of the sound collection unit and the predetermined threshold. It is determined whether or not an operation corresponding to the recognition result is permitted. For example, when the appropriateness such as the position of the sound collection unit is equal to or less than a predetermined threshold, the device 10-4 operates the external device 50 based on voice recognition, operation of a control system based on voice recognition, or Does not allow execution of operations such as sending information to other users. Therefore, when the appropriateness such as the position of the sound collection unit is low, that is, when there is a high possibility that the user's voice is erroneously recognized, the operation based on the voice recognition can be appropriately limited.
- the device 10-4 may automatically adjust the position and / or orientation of the sound collection unit 120 so that the appropriateness of the position and the like of the sound collection unit is improved. Is possible. Therefore, when the user repeats the utterance, the position and / or posture of the sound collecting unit 120 is appropriately adjusted, and the operation based on the limited voice recognition can be executed.
- the device 10 includes a CPU 150, a ROM (Read Only Memory) 152, a RAM 154, a bus 156, an interface 158, a storage device 160, and a communication device 162.
- the CPU 150 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the device 10 according to various programs. In addition, the CPU 150 realizes the function of the control unit 100 in the device 10.
- the CPU 150 is configured by a processor such as a microprocessor.
- the ROM 152 stores programs used by the CPU 150 and control data such as calculation parameters.
- the RAM 154 temporarily stores a program executed by the CPU 150, for example.
- the bus 156 includes a CPU bus and the like.
- the bus 156 connects the CPU 150, the ROM 152, and the RAM 154 to each other.
- the interface 158 connects the storage device 160 and the communication device 162 to the bus 156.
- the storage device 160 is a data storage device that functions as the storage unit 126.
- the storage device 160 includes, for example, a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, or a deletion device that deletes data recorded on the storage medium.
- the communication device 162 is a communication interface composed of a communication device for connecting to the communication network 30 or the like, for example. Further, the communication device 162 may be a wireless LAN compatible communication device, an LTE (Long Term Evolution) compatible communication device, or a wire communication device that performs wired communication. The communication device 162 functions as the communication unit 124.
- LTE Long Term Evolution
- the hardware configuration of the server 20 may be the same as the hardware configuration described above.
- each embodiment can be similarly applied to a scene where a plurality of users use one device 10. For example, every time one of a plurality of users (hereinafter referred to as a “speaking user”) speaks, the server 20 calculates the appropriateness such as the position of the sound collection unit based on the speech of the speaking user, and The calculated appropriateness degree is transmitted to the device 10. Then, the device 10 sequentially changes the position and / or posture of the sound collection unit 120 according to the received appropriateness.
- a speaking user every time one of a plurality of users (hereinafter referred to as a “speaking user”) speaks, the server 20 calculates the appropriateness such as the position of the sound collection unit based on the speech of the speaking user, and The calculated appropriateness degree is transmitted to the device 10. Then, the device 10 sequentially changes the position and / or posture of the sound collection unit 120 according to the received appropriateness.
- the positional relationship between the sound collecting unit 120 of the robot 10a and each user is different, the sound of some users can be collected appropriately while the position of the sound collecting unit 120 is fixed. I can't.
- the position and / or orientation of the sound collection unit 120 can be adjusted sequentially so that the voice of the spoken user can be collected appropriately.
- the robot 10a transmits voice data of the speech to the server 20. Then, the server 20 performs voice recognition on the received voice data, and calculates appropriateness such as the position of the sound collection unit based on the voice recognition. Then, the server 20-2 transmits the calculated appropriateness and the voice recognition result to the robot 10a. Then, the robot 10a changes the position and / or posture of the sound collecting unit 120 based on the comparison between the received appropriateness and a predetermined threshold value.
- the robot 10a performs the same process by using the position and / or posture of the sound collecting unit 120 based on the direction of the user 2b. To change. As described above, the robot 10a can appropriately adjust the position and / or posture of the sound collection unit 120 in real time according to the utterance state of each user.
- each step in the operation of each embodiment described above does not necessarily have to be processed in the order described.
- the steps may be processed by changing the order as appropriate.
- Each step may be processed in parallel or individually instead of being processed in time series. Further, some of the described steps may be omitted, or another step may be further added.
- a computer for causing hardware such as the CPU 150, the ROM 152, and the RAM 154 to perform the same functions as the components of the device 10 and / or the server 20 according to each embodiment described above.
- Programs can also be provided.
- a recording medium on which the computer program is recorded is also provided.
- An acquisition unit that acquires the appropriateness calculated based on the sound collected by the sound collection unit;
- a processing unit that performs processing based on the degree of appropriateness acquired by the acquisition unit;
- An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the appropriateness includes an appropriateness of a position of the sound collection unit.
- the information processing apparatus wherein the processing is control related to a change in the position of the sound collection unit.
- the information processing apparatus wherein the processing is to control output of information that prompts a user to change the position of the sound collection unit.
- the acquisition unit further acquires a voice recognition result of the user's voice collected by the sound collection unit, The information processing apparatus according to any one of (1) to (3), wherein the processing unit determines whether or not an operation specified from the voice recognition result is permitted based on the appropriateness level. .
- the information processing apparatus further includes the sound collection unit, The information processing apparatus according to (7), wherein the processing unit determines whether to permit an operation on an external device specified from the voice recognition result based on the appropriateness.
- the processing unit determines whether to permit an operation related to the behavior of the information processing apparatus or an external device specified from the speech recognition result based on the appropriateness, (7) or (8 ).
- the information processing apparatus according to (7) wherein the processing unit determines whether or not to permit transmission operation of information addressed to another user specified from the voice recognition result based on the appropriateness level. .
- the processing unit inquires of the user whether or not the operation specified from the voice recognition result can be executed.
- ,And The information processing apparatus according to any one of (7) to (10), wherein the processing unit determines whether to permit the operation based on an answer of the user to the inquiry.
- control information generation unit determines whether to generate the control information based on a comparison between the appropriateness level and a predetermined threshold value.
- control information generation unit further generates the control information based on a change history of the position of the sound collection unit.
- the acquisition unit further acquires information about the device including the sound collection unit, The information processing apparatus according to any one of (14) to (16), wherein the control information generation unit further generates the control information based on information about the device acquired by the acquisition unit.
- the processing unit causes the communication unit to transmit the appropriateness level to a device including the sound collection unit.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
【課題】集音された音声の状態に適応的に処理を行うことが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。 【解決手段】集音部で集音された音声に基づいて算出される適正度を取得する取得部と、前記取得部により取得された適正度に基づいて処理を行う処理部と、を備える、情報処理装置。
Description
本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、音声認識に関する技術が各種提案されている。音声認識では、ユーザが発した音声をテキストに変換することができる。
例えば、下記特許文献1には、クラウドベースのアプリケーションが、ユーザが発した音声コマンドを音声認識し、そして、音声認識結果に対応する処理を行う技術が記載されている。
しかしながら、特許文献1に記載の技術では、集音された音声の状態によらずに、同一の処理を行う。例えば、特許文献1に記載の技術では、集音された音声が音声認識に適しているか否かによって、処理を異ならせることができない。
そこで、本開示では、集音された音声の状態に適応的に処理を行うことが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、集音部で集音された音声に基づいて算出される適正度を取得する取得部と、前記取得部により取得された適正度に基づいて処理を行う処理部と、を備える、情報処理装置が提供される。
また、本開示によれば、集音部で集音された音声を取得する取得部と、前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、を備える、情報処理装置が提供される。
また、本開示によれば、集音部で集音された音声に基づいて算出される適正度を取得することと、取得された適正度に基づいて、プロセッサが処理を行うことと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータを、集音部で集音された音声に基づいて算出される適正度を取得する取得部と、前記取得部により取得された適正度に基づいて処理を行う処理部と、として機能させるための、プログラムが提供される。
以上説明したように本開示によれば、集音された音声の状態に適応的に処理を行うことができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じてデバイス10aおよびデバイス10bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、デバイス10aおよびデバイス10bを特に区別する必要が無い場合には、単にデバイス10と称する。
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.第1の実施形態
2.第2の実施形態
3.第3の実施形態
4.第4の実施形態
5.ハードウェア構成
6.変形例
1.第1の実施形態
2.第2の実施形態
3.第3の実施形態
4.第4の実施形態
5.ハードウェア構成
6.変形例
なお、本明細書及び図面において、後述する各実施形態によるデバイス10‐1、デバイス10‐2、デバイス10‐3、および、デバイス10‐4を総称して、デバイス10と称する場合がある。同様に、各実施形態によるサーバ20‐1、サーバ20‐2、サーバ20‐3、および、サーバ20‐4を総称して、サーバ20と称する場合がある。
<<1.第1の実施形態>>
<1-1.情報処理システムの構成>
まず、本開示の第1の実施形態について説明する。第1の実施形態では、集音部120に対してユーザが音声入力を行う場面を想定する。図1は、第1の実施形態による情報処理システムの構成を示した説明図である。図1に示すように、第1の実施形態による情報処理システムは、デバイス10‐1、サーバ20‐1、および、通信網30を含む。
<1-1.情報処理システムの構成>
まず、本開示の第1の実施形態について説明する。第1の実施形態では、集音部120に対してユーザが音声入力を行う場面を想定する。図1は、第1の実施形態による情報処理システムの構成を示した説明図である。図1に示すように、第1の実施形態による情報処理システムは、デバイス10‐1、サーバ20‐1、および、通信網30を含む。
{1-1-1.サーバ20‐1}
サーバ20‐1は、本開示における情報処理装置の一例である。サーバ20‐1は、音声認識機能を有する。例えば、サーバ20‐1は、後述する通信網30を介してデバイス10‐1から受信される音声データに対して音声認識(クラウド音声認識)を行う。そして、サーバ20‐1は、音声認識結果をデバイス10‐1へ送信する。
サーバ20‐1は、本開示における情報処理装置の一例である。サーバ20‐1は、音声認識機能を有する。例えば、サーバ20‐1は、後述する通信網30を介してデバイス10‐1から受信される音声データに対して音声認識(クラウド音声認識)を行う。そして、サーバ20‐1は、音声認識結果をデバイス10‐1へ送信する。
{1-1-2.デバイス10‐1}
デバイス10‐1は、本開示における情報処理装置の一例である。デバイス10‐1は、集音部120で集音された音声データをサーバ20‐1へ送信する。例えば、デバイス10‐1は、集音部120で集音されたユーザの発話の音声データをサーバ20‐1へ送信する。なお、集音部120は、デバイス10‐1に備えられてもよいし、または、デバイス10‐1と有線通信または無線通信により通信可能に接続されていてもよい。
デバイス10‐1は、本開示における情報処理装置の一例である。デバイス10‐1は、集音部120で集音された音声データをサーバ20‐1へ送信する。例えば、デバイス10‐1は、集音部120で集音されたユーザの発話の音声データをサーバ20‐1へ送信する。なお、集音部120は、デバイス10‐1に備えられてもよいし、または、デバイス10‐1と有線通信または無線通信により通信可能に接続されていてもよい。
また、デバイス10‐1は、集音部120の位置および/または姿勢の変更を制御することが可能である。
なお、図1では、デバイス10‐1がヘッドセットである例を示しているが、かかる例に限定されない。例えば、デバイス10‐1は、汎用PC(Personal Computer)、タブレット型端末、スマートフォンなどの携帯電話、ゲーム機、携帯型音楽プレーヤ、エージェント装置、ロボット、または、HMD(Head Mounted Display)などの眼鏡型デバイスや腕時計型デバイスなどの他のウェアラブルデバイスなどであってもよい。
{1-1-3.通信網30}
通信網30は、通信網30に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網30は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
通信網30は、通信網30に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網30は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
なお、第1の実施形態による情報処理システムの構成は、上述した例に限定されない。例えば、図1では、サーバ20‐1が一台だけ図示されているが、かかる例に限定されない。例えば、複数台のコンピュータが協同して動作することにより、後述するサーバ20‐1の機能が実現されてもよい。また、図1では、デバイス10‐1が一台だけ図示されているが、かかる例に限定されず、当該情報処理システムは、デバイス10‐1を複数台含み得る。
{1-1-4.課題の整理}
以上、第1の実施形態による情報処理システムの構成について説明した。ところで、集音部120とユーザとの位置関係が不適切であると、集音部120は、ユーザの音声を適切に集音することができない。その結果、集音部120で集音された音声をサーバ20‐1が音声認識する際に、音声認識の精度が低下し得る。例えば、ユーザの意図とは異なるテキストが音声認識結果として得られる。また、不適切に集音された音声をサーバ20‐1が音声認識する場合には、音声認識の処理量が増加し得る。
以上、第1の実施形態による情報処理システムの構成について説明した。ところで、集音部120とユーザとの位置関係が不適切であると、集音部120は、ユーザの音声を適切に集音することができない。その結果、集音部120で集音された音声をサーバ20‐1が音声認識する際に、音声認識の精度が低下し得る。例えば、ユーザの意図とは異なるテキストが音声認識結果として得られる。また、不適切に集音された音声をサーバ20‐1が音声認識する場合には、音声認識の処理量が増加し得る。
一方、音声認識の精度が高くなるように、集音部120の位置や姿勢を調整することは、ユーザの手間が大きい。また、音声認識の精度が高くなるような、ユーザに対する集音部120の位置や姿勢は、例えば集音部120の周囲の音の状況や集音部120の種類などによって異なる。従って、集音部120の適切な位置や姿勢をユーザが特定することは難しい。
そこで、上記事情を一着眼点にして、第1の実施形態によるデバイス10‐1およびサーバ20‐1を創作するに至った。第1の実施形態によれば、サーバ20‐1は、集音部120で集音されたユーザの音声をデバイス10‐1から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部120の位置および/または姿勢を変更させるための制御情報をデバイス10‐1へ送信する。また、デバイス10‐1は、サーバ20‐1から受信される制御情報に基づいて、集音部120の位置および/または姿勢を変更する。これにより、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。
<1-2.構成>
{1-2-1.サーバ20‐1}
次に、第1の実施形態による構成について詳細に説明する。図2は、第1の実施形態によるサーバ20‐1の構成例を示した機能ブロック図である。図2に示すように、サーバ20‐1は、制御部200、通信部220、および、記憶部222を有する。
{1-2-1.サーバ20‐1}
次に、第1の実施形態による構成について詳細に説明する。図2は、第1の実施形態によるサーバ20‐1の構成例を示した機能ブロック図である。図2に示すように、サーバ20‐1は、制御部200、通信部220、および、記憶部222を有する。
(1-2-1-1.制御部200)
制御部200は、サーバ20‐1に内蔵される、例えばCPU(Central Processing Unit)や、RAM(Random Access Memory)などのハードウェアを用いて、サーバ20‐1の動作を全般的に制御する。また、図2に示すように、制御部200は、音声認識部202、適正度算出部204、制御情報生成部206、および、送信制御部208を有する。
制御部200は、サーバ20‐1に内蔵される、例えばCPU(Central Processing Unit)や、RAM(Random Access Memory)などのハードウェアを用いて、サーバ20‐1の動作を全般的に制御する。また、図2に示すように、制御部200は、音声認識部202、適正度算出部204、制御情報生成部206、および、送信制御部208を有する。
(1-2-1-2.音声認識部202)
音声認識部202は、例えばデバイス10‐1から受信される音声データなどを認識する。また、音声認識部202は、音声認識の結果を適正度算出部204および送信制御部208に伝達する。
音声認識部202は、例えばデバイス10‐1から受信される音声データなどを認識する。また、音声認識部202は、音声認識の結果を適正度算出部204および送信制御部208に伝達する。
(1-2-1-3.適正度算出部204)
適正度算出部204は、音声認識部202による音声認識に基づいて適正度を算出する。ここで、適正度は、例えば、集音部120の位置および/または姿勢の適正度(以下、集音部の位置等の適正度と称する)であり得る。または、適正度は、集音された音声の適正度(例えば、当該音声の音声認識結果の信頼度など)であり得る。なお、以下では、適正度が、集音部の位置等の適正度である例を中心として説明を行う。
適正度算出部204は、音声認識部202による音声認識に基づいて適正度を算出する。ここで、適正度は、例えば、集音部120の位置および/または姿勢の適正度(以下、集音部の位置等の適正度と称する)であり得る。または、適正度は、集音された音声の適正度(例えば、当該音声の音声認識結果の信頼度など)であり得る。なお、以下では、適正度が、集音部の位置等の適正度である例を中心として説明を行う。
例えば、適正度算出部204は、デバイス10‐1から受信された音声データを音声認識部202が音声認識する際の計算量、当該音声データに含まれるノイズの情報(例えばノイズの量など)、および/または、音声認識結果の信頼度などに基づいて、集音部の位置等の適正度を算出する。例えば、適正度算出部204は、音声認識する際の計算量が少ないほど、当該音声データに含まれるノイズの量が少ないほど、および、音声認識結果の信頼度が高いほど、集音部の位置等の適正度がより高くなるように当該適正度を算出する。なお、例えば認識対象の音声データに含まれるノイズ量が多いほど、または、認識結果の候補となるテキストが多いほど、音声認識部202が音声認識する際の計算量は大きくなり得る。
なお、デバイス10‐1から受信される音声データは、基本的には、任意の発話の音声であり得る。但し、かかる例に限定されず、例えば、音声認識機能の利用の開始時(例えばデバイス10‐1に実装されている音声認識用アプリケーションの開始時など)には、所定の起動ワードの発話の音声データがデバイス10‐1から受信され得る。この所定の起動ワードは予め決められているテキストであるので、適正度算出部204は、任意の発話と比較して、集音部の位置等の適正度をより正確に算出することが可能である。
(1-2-1-4.制御情報生成部206)
制御情報生成部206は、適正度算出部204により算出された集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢をデバイス10‐1に変更させるための制御情報を生成する。例えば、算出された集音部の位置等の適正度が所定の閾値以下である場合には、制御情報生成部206は、当該制御情報を生成することを決定する。また、算出された集音部の位置等の適正度が所定の閾値よりも大きい場合には、制御情報生成部206は、当該制御情報を生成しないことを決定する。
制御情報生成部206は、適正度算出部204により算出された集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢をデバイス10‐1に変更させるための制御情報を生成する。例えば、算出された集音部の位置等の適正度が所定の閾値以下である場合には、制御情報生成部206は、当該制御情報を生成することを決定する。また、算出された集音部の位置等の適正度が所定の閾値よりも大きい場合には、制御情報生成部206は、当該制御情報を生成しないことを決定する。
また、制御情報を生成することを決定した際には、制御情報生成部206は、後述する位置変更履歴DB224に格納されている、集音部120の位置等の変更履歴に基づいて、制御情報を生成する。例えば、制御情報生成部206は、今回算出された集音部の位置等の適正度と、前回算出された集音部の位置等の適正度との比較、および、前回の集音部120の位置および/または姿勢の変更内容に基づいて、制御情報を生成する。一例として、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度以上である場合には、制御情報生成部206は、集音部120を前回の移動方向と同じ方向に移動させるための制御情報を生成する。また、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度未満である場合には、制御情報生成部206は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を移動させるための制御情報を生成する。ここで、制御情報は、集音部120の相対的な移動方向、移動量、または、姿勢の変更量を示す値であり得る。
なお、集音部120を初めて移動させる際、すなわち変更履歴が存在しない場合には、制御情報生成部206は、予め定められた方向へ集音部120を移動させるための制御情報を生成してもよい。
また、制御情報生成部206は、さらに、デバイス10‐1から受信されるデバイス10‐1の識別情報に基づいて、制御情報を生成することも可能である。例えば、デバイス10‐1の識別情報と、集音部120の移動可能な条件(移動可能な方向や量など)とが対応付けられたテーブルが予め用意され得る。そして、制御情報生成部206は、受信されたデバイス10‐1の識別情報、および、当該テーブルの登録内容に基づいて、集音部120の移動可能な条件を特定することにより制御情報を生成する。
‐位置変更履歴DB224
位置変更履歴DB224は、集音部120ごとの、過去に算出された適正度、および、過去の制御情報の内容が格納されるデータベースである。図3は、位置変更履歴DB224の構成例を示した説明図である。図3に示したように、位置変更履歴DB224では、例えば、デバイスID2240、日時2242、適正度2244、および、制御情報2246が対応付けられている。ここで、デバイスID2240には、音声データの送信元であるデバイス10‐1に予め割り当てられている識別情報が記録される。また、日時2242には、該当のデバイス10‐1に関して、集音部の位置等の適正度が算出された際の日時が記録される。また、適正度2244には、該当のデバイス10‐1に関して、該当の日時に算出された集音部の位置等の適正度の値が記録される。また、制御情報2246には、該当のデバイス10‐1に関して、該当の日時に生成された制御情報の内容が記録される。なお、図3では、制御情報が、二種類の回転角度(θ、φ)の組により集音部の位置を変更させる情報である例を示している。但し、かかる例に限定されず、制御情報は、例えば、直交する3軸の方向の移動量(x、y、z)の組により集音部の位置を変更させる情報であってもよい。
位置変更履歴DB224は、集音部120ごとの、過去に算出された適正度、および、過去の制御情報の内容が格納されるデータベースである。図3は、位置変更履歴DB224の構成例を示した説明図である。図3に示したように、位置変更履歴DB224では、例えば、デバイスID2240、日時2242、適正度2244、および、制御情報2246が対応付けられている。ここで、デバイスID2240には、音声データの送信元であるデバイス10‐1に予め割り当てられている識別情報が記録される。また、日時2242には、該当のデバイス10‐1に関して、集音部の位置等の適正度が算出された際の日時が記録される。また、適正度2244には、該当のデバイス10‐1に関して、該当の日時に算出された集音部の位置等の適正度の値が記録される。また、制御情報2246には、該当のデバイス10‐1に関して、該当の日時に生成された制御情報の内容が記録される。なお、図3では、制御情報が、二種類の回転角度(θ、φ)の組により集音部の位置を変更させる情報である例を示している。但し、かかる例に限定されず、制御情報は、例えば、直交する3軸の方向の移動量(x、y、z)の組により集音部の位置を変更させる情報であってもよい。
(1-2-1-5.送信制御部208)
送信制御部208は、本開示における処理部の一例である。送信制御部208は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部208は、音声認識部202による音声認識結果を該当のデバイス10‐1へ通信部220に送信させる。また、送信制御部208は、制御情報生成部206により生成された制御情報を該当のデバイス10‐1へ通信部220に送信させる。なお、送信制御部208は、制御情報を音声認識結果と一緒にデバイス10‐1へ通信部220に送信させてもよい。または、音声認識部202による音声認識の途中に制御情報が生成される度に、送信制御部208は、生成された制御情報だけをデバイス10‐1へ通信部220に逐次的に送信させてもよい。
送信制御部208は、本開示における処理部の一例である。送信制御部208は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部208は、音声認識部202による音声認識結果を該当のデバイス10‐1へ通信部220に送信させる。また、送信制御部208は、制御情報生成部206により生成された制御情報を該当のデバイス10‐1へ通信部220に送信させる。なお、送信制御部208は、制御情報を音声認識結果と一緒にデバイス10‐1へ通信部220に送信させてもよい。または、音声認識部202による音声認識の途中に制御情報が生成される度に、送信制御部208は、生成された制御情報だけをデバイス10‐1へ通信部220に逐次的に送信させてもよい。
(1-2-1-6.通信部220)
通信部220は、本開示における取得部の一例である。通信部220は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部220は、音声データをデバイス10‐1から受信する。また、通信部220は、送信制御部208の制御に従って、制御情報や音声認識結果をデバイス10‐1へ送信する。
通信部220は、本開示における取得部の一例である。通信部220は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部220は、音声データをデバイス10‐1から受信する。また、通信部220は、送信制御部208の制御に従って、制御情報や音声認識結果をデバイス10‐1へ送信する。
(1-2-1-7.記憶部222)
記憶部222は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部222は、位置変更履歴DB224などを記憶する。
記憶部222は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部222は、位置変更履歴DB224などを記憶する。
なお、第1の実施形態によるサーバ20‐1の構成は、上述した例に限定されない。例えば、位置変更履歴DB224は、サーバ20‐1に備えられる代わりに、サーバ20‐1と通信可能な他の装置(図示省略)に備えられてもよい。
{1-2-2.デバイス10‐1}
次に、第1の実施形態によるデバイス10‐1の構成について詳細に説明する。図4は、第1の実施形態によるデバイス10‐1の構成例を示した機能ブロック図である。図4に示すように、デバイス10‐1は、制御部100、集音部120、駆動部122、通信部124、および、記憶部126を有する。
次に、第1の実施形態によるデバイス10‐1の構成について詳細に説明する。図4は、第1の実施形態によるデバイス10‐1の構成例を示した機能ブロック図である。図4に示すように、デバイス10‐1は、制御部100、集音部120、駆動部122、通信部124、および、記憶部126を有する。
(1-2-2-1.制御部100)
制御部100は、デバイス10‐1に内蔵される、後述するCPU150や、RAM154などのハードウェアを用いて、デバイス10‐1の動作を全般的に制御する。また、図4に示すように、制御部100は、送信制御部102、および、駆動制御部104を有する。
制御部100は、デバイス10‐1に内蔵される、後述するCPU150や、RAM154などのハードウェアを用いて、デバイス10‐1の動作を全般的に制御する。また、図4に示すように、制御部100は、送信制御部102、および、駆動制御部104を有する。
(1-2-2-2.送信制御部102)
送信制御部102は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部102は、集音部120により集音された音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ通信部124に送信させる。
送信制御部102は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部102は、集音部120により集音された音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ通信部124に送信させる。
(1-2-2-3.駆動制御部104)
駆動制御部104は、本開示における処理部の一例である。駆動制御部104は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を駆動部122に変更させる。
駆動制御部104は、本開示における処理部の一例である。駆動制御部104は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を駆動部122に変更させる。
図5は、集音部120の位置の変更例を示した説明図である。なお、図5では、サーバ20‐1から制御情報32が受信された場合における集音部120の位置の変更例を示している。図5に示したように、駆動制御部104は、制御情報32に従って、現在の集音部120の位置を基準として、θに関して「+3」、φに関して「-2」だけ集音部120の位置を変化させるように、駆動部122を制御する。
(1-2-2-4.集音部120)
集音部120は、外部の音(空気振動)を検出し、そして、電気信号に変換する。また、集音部120は、集音した音声を制御部100へ伝達する。
集音部120は、外部の音(空気振動)を検出し、そして、電気信号に変換する。また、集音部120は、集音した音声を制御部100へ伝達する。
(1-2-2-5.駆動部122)
駆動部122は、駆動制御部104の制御に従って、集音部120の位置および/または姿勢を変更する。この駆動部122は、例えば、集音部120の位置および/または姿勢を変更可能なアクチュエータを含む。
駆動部122は、駆動制御部104の制御に従って、集音部120の位置および/または姿勢を変更する。この駆動部122は、例えば、集音部120の位置および/または姿勢を変更可能なアクチュエータを含む。
(1-2-2-6.通信部124)
通信部124は、本開示における取得部の一例である。通信部124は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部124は、制御情報および音声認識結果をサーバ20‐1から受信する。また、通信部124は、送信制御部102の制御に従って、音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ送信する。
通信部124は、本開示における取得部の一例である。通信部124は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部124は、制御情報および音声認識結果をサーバ20‐1から受信する。また、通信部124は、送信制御部102の制御に従って、音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ送信する。
(1-2-2-7.記憶部126)
記憶部126は、各種のデータや各種のソフトウェアを記憶する。
記憶部126は、各種のデータや各種のソフトウェアを記憶する。
<1-3.適用例>
以上、第1の実施形態による構成について説明した。次に、第1の実施形態の適用例について説明する。本適用例では、デバイス10‐1が、集音部120を備えたヘッドセット10‐1aである例について説明する。なお、集音部120は上下方向(垂直方向)にのみ移動可能であるものとする。
以上、第1の実施形態による構成について説明した。次に、第1の実施形態の適用例について説明する。本適用例では、デバイス10‐1が、集音部120を備えたヘッドセット10‐1aである例について説明する。なお、集音部120は上下方向(垂直方向)にのみ移動可能であるものとする。
ヘッドセット10‐1aをユーザが装着した場合、ユーザの口と集音部120との位置関係は、ユーザによって異なる。従って、ユーザによっては、ヘッドセット10‐1aの装着時に、音声認識の精度の観点で不適切な位置に集音部120が位置づけられ得る。本適用例によれば、集音部120の位置を、ヘッドセット10‐1aを装着中のユーザに最適な位置に自動的に調整することが可能である。
具体的には、まず、ユーザが集音部120に対して任意の発話をすると、ヘッドセット10‐1aは、集音部120により集音された音声データ、および、ヘッドセット10‐1aの識別情報をサーバ20‐1へ送信する。
その後、サーバ20‐1は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。また、サーバ20‐1は、受信したヘッドセット10‐1aの識別情報に基づいて、集音部120が上下方向にのみ移動可能であることを認識する。そして、算出された適正度が所定の閾値よりも大きい場合には、サーバ20‐1は、制御情報を生成しないことを決定し、そして、音声認識結果だけを該当のヘッドセット10‐1aへ送信する。
一方、算出された適正度が所定の閾値以下である場合には、サーバ20‐1は、位置変更履歴DB224に格納されている、該当のヘッドセット10‐1aに関する集音部120の位置等の変更履歴に基づいて、上下いずれかの方向へ集音部120を移動させるための制御情報を生成する。例えば、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度以上である場合には、サーバ20‐1は、前回の移動方向と同じ方向へ集音部120を移動させるための制御情報を生成する。また、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度未満である場合には、制御情報生成部206は、前回の移動方向とは反対の方向へ集音部120を移動させるための制御情報を生成する。
その後、サーバ20‐1は、生成した制御情報および音声認識結果を該当のヘッドセット10‐1aへ送信する。その後、ヘッドセット10‐1aは、受信した制御情報に従って、集音部120の位置を変更する。
なお、ユーザが発話する度に、サーバ20‐1およびヘッドセット10‐1aは、上述した処理を繰り返す。従って、ユーザが発話を繰り返すことにより、ヘッドセット10‐1aは、集音部120の位置がユーザにとって最適な位置になるように、集音部120の位置を徐々に調整していくことができる。
<1-4.動作>
{1-4-1.動作の全体的な流れ}
以上、第1の実施形態の適用例について説明した。次に、第1の実施形態による動作について、図6および図7を参照して説明する。図6は、第1の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図6に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。
{1-4-1.動作の全体的な流れ}
以上、第1の実施形態の適用例について説明した。次に、第1の実施形態による動作について、図6および図7を参照して説明する。図6は、第1の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図6に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。
図6に示したように、まず、デバイス10‐1の集音部120は、ユーザにより発せられた音声を集音する(S101)。
続いて、通信部124は、送信制御部102の制御に従って、S101で集音された音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ送信する(S103)。
その後、サーバ20‐1の音声認識部202は、受信された音声データに対して音声認識を行う(S105)。続いて、適正度算出部204は、S105における音声認識および所定の計算式に基づいて、集音部の位置等の適正度を算出する(S107)。なお、適正度算出部204は、S105の途中において、集音部の位置等の適正度を算出することも可能である。
続いて、制御情報生成部206は、S107で算出された適正度が所定の閾値よりも大きいか否かを判定する(S109)。算出された適正度が所定の閾値よりも大きい場合には(S109:Yes)、通信部220は、送信制御部208の制御に従って、S105における音声認識結果のみをデバイス10‐1へ送信する(S111)。その後、本動作は終了する。
一方、算出された適正度が所定の閾値以下である場合には(S109:No)、制御情報生成部206は、後述する「制御情報生成処理」を行う(S113)。
続いて、通信部220は、送信制御部208の制御に従って、S105における音声認識結果、および、S113で生成された制御情報をデバイス10‐1へ送信する(S115)。
その後、デバイス10‐1の駆動制御部104は、受信した制御情報に従って、集音部120の位置および/または姿勢を駆動部122に変更させる(S117)。
{1-4-2.制御情報生成処理}
ここで、S113における「制御情報生成処理」の流れについて、図7を参照して説明する。図7に示したように、まず、制御情報生成部206は、位置変更履歴DB224を参照することにより、該当のデバイス10‐1に関する前回の適正度を特定する。そして、制御情報生成部206は、S107で算出された適正度が、前回算出された適正度以上であるか否かを判定する(S151)。S107で算出された適正度が、前回算出された適正度以上である場合には(S151:Yes)、制御情報生成部206は、集音部120の位置を前回の移動方向と同じ方向に移動させるための制御情報を生成する(S153)。そして、制御情報生成部206は、該当のデバイス10‐1の識別情報、S107で算出された適正度、および、生成された制御情報を対応付けて位置変更履歴DB224に保存する(S155)。
ここで、S113における「制御情報生成処理」の流れについて、図7を参照して説明する。図7に示したように、まず、制御情報生成部206は、位置変更履歴DB224を参照することにより、該当のデバイス10‐1に関する前回の適正度を特定する。そして、制御情報生成部206は、S107で算出された適正度が、前回算出された適正度以上であるか否かを判定する(S151)。S107で算出された適正度が、前回算出された適正度以上である場合には(S151:Yes)、制御情報生成部206は、集音部120の位置を前回の移動方向と同じ方向に移動させるための制御情報を生成する(S153)。そして、制御情報生成部206は、該当のデバイス10‐1の識別情報、S107で算出された適正度、および、生成された制御情報を対応付けて位置変更履歴DB224に保存する(S155)。
一方、S151において、S107で算出された適正度が、前回算出された適正度未満である場合には(S151:No)、制御情報生成部206は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を移動させるための制御情報を生成する(S157)。その後、制御情報生成部206は、上述したS155の処理を行う。
<1-5.効果>
以上説明したように、第1の実施形態によれば、サーバ20‐1は、集音部120で集音されたユーザの音声をデバイス10‐1から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部120の位置および/または姿勢を変更させるための制御情報をデバイス10‐1へ送信する。また、デバイス10‐1は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。例えば、ユーザは発話を繰り返すだけで、集音部120の位置および/または姿勢を適切に調整することができる。
以上説明したように、第1の実施形態によれば、サーバ20‐1は、集音部120で集音されたユーザの音声をデバイス10‐1から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部120の位置および/または姿勢を変更させるための制御情報をデバイス10‐1へ送信する。また、デバイス10‐1は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。例えば、ユーザは発話を繰り返すだけで、集音部120の位置および/または姿勢を適切に調整することができる。
また、第1の実施形態によれば、デバイス10‐1は、サーバ20‐1から受信される制御情報を利用するだけで、集音部120の位置および/または姿勢を適切に変更することが可能である。従って、例えばデバイス10‐1が変更方向を自ら判断するなどの特別な処理が不要になる。その結果、デバイス10‐1の消費電力の節約につながる。
また、第1の実施形態によれば、集音部120で集音される音声の音声認識の精度が向上するので、サーバ20‐1による音声認識の処理量が減少することが期待できる。
また、第1の実施形態によれば、一台の集音部120で集音される音声のみを用いて当該集音部120の位置および/または姿勢を適切に変更することができる。例えば、公知の技術のような、複数の集音部120による集音結果を用いて、発話するユーザの方向を判定する処理などが不要となる。従って、公知の技術と比較して、シンプルなハードウェア構成により、集音部120の位置および/または姿勢を適切に変更することができる。
<<2.第2の実施形態>>
以上、第1の実施形態について説明した。第1の実施形態では、サーバ20‐1が、集音部120の位置および/または姿勢を変更させるための制御情報を生成し、そして、デバイス10‐1へ送信する例について説明した。
以上、第1の実施形態について説明した。第1の実施形態では、サーバ20‐1が、集音部120の位置および/または姿勢を変更させるための制御情報を生成し、そして、デバイス10‐1へ送信する例について説明した。
次に、第2の実施形態について説明する。後述するように、第2の実施形態によるデバイス10‐2は、第2の実施形態によるサーバ20‐2から受信される集音部の位置等の適正度に応じて、集音部120の位置および/または姿勢を変更することが可能である。なお、以下では、第1の実施形態と異なる内容についてのみ説明を行うこととし、重複する内容については説明を省略する。
<2-1.構成>
{2-1-1.サーバ20‐2}
まず、第2の実施形態による構成について詳細に説明する。図8は、第2の実施形態によるサーバ20‐2の構成例を示した機能ブロック図である。図8に示すように、サーバ20‐2は、(図2に示した)サーバ20‐1と比較して、制御情報生成部206を有しない。また、第2の実施形態では、第1の実施形態と異なり、基本的には、位置変更履歴DB224は設けられない。
{2-1-1.サーバ20‐2}
まず、第2の実施形態による構成について詳細に説明する。図8は、第2の実施形態によるサーバ20‐2の構成例を示した機能ブロック図である。図8に示すように、サーバ20‐2は、(図2に示した)サーバ20‐1と比較して、制御情報生成部206を有しない。また、第2の実施形態では、第1の実施形態と異なり、基本的には、位置変更履歴DB224は設けられない。
(2-1-1-1.送信制御部208)
第2の実施形態による送信制御部208は、適正度算出部204により算出された集音部の位置等の適正度を該当のデバイス10‐2へ通信部220に送信させる。なお、送信制御部208は、集音部の位置等の適正度を音声認識結果と一緒に該当のデバイス10‐1へ通信部220に送信させてもよいし、または、音声認識部202による音声認識の処理中に、集音部の位置等の適正度だけを該当のデバイス10‐1へ通信部220に逐次的に送信させてもよい。
第2の実施形態による送信制御部208は、適正度算出部204により算出された集音部の位置等の適正度を該当のデバイス10‐2へ通信部220に送信させる。なお、送信制御部208は、集音部の位置等の適正度を音声認識結果と一緒に該当のデバイス10‐1へ通信部220に送信させてもよいし、または、音声認識部202による音声認識の処理中に、集音部の位置等の適正度だけを該当のデバイス10‐1へ通信部220に逐次的に送信させてもよい。
{2-1-2.デバイス10‐2}
また、図9は、第2の実施形態によるデバイス10‐2の構成例を示した機能ブロック図である。なお、図9に示したように、デバイス10‐2に含まれる構成要素は、(図4に示した)デバイス10‐1と同様である。
また、図9は、第2の実施形態によるデバイス10‐2の構成例を示した機能ブロック図である。なお、図9に示したように、デバイス10‐2に含まれる構成要素は、(図4に示した)デバイス10‐1と同様である。
(2-1-2-1.送信制御部102)
第2の実施形態による送信制御部102は、基本的に、集音部120により集音された音声データのみをサーバ20‐2へ通信部124に送信させる。すなわち、基本的に、デバイス10‐2の識別情報はサーバ20‐2へ送信されない。
第2の実施形態による送信制御部102は、基本的に、集音部120により集音された音声データのみをサーバ20‐2へ通信部124に送信させる。すなわち、基本的に、デバイス10‐2の識別情報はサーバ20‐2へ送信されない。
(2-1-2-2.駆動制御部104)
第2の実施形態による駆動制御部104は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。例えば、受信された集音部の位置等の適正度が所定の閾値以下である場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させることを決定する。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させないことを決定する。
第2の実施形態による駆動制御部104は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。例えば、受信された集音部の位置等の適正度が所定の閾値以下である場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させることを決定する。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させないことを決定する。
また、集音部120の位置等を変更することを決定した際には、駆動制御部104は、後述する位置変更履歴DB128に格納されている、集音部120の位置等の変更履歴に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。例えば、駆動制御部104は、今回受信された集音部の位置等の適正度と、前回受信された集音部の位置等の適正度との比較、および、前回の集音部120の位置および/または姿勢の変更内容に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。一例として、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、駆動制御部104は、集音部120を前回の移動方向と同じ方向に駆動部122に移動させる。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、駆動制御部104は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を駆動部122に移動させる。
なお、集音部120を初めて移動させる際、すなわち変更履歴が存在しない場合には、駆動制御部104は、予め定められた方向へ集音部120を駆動部122に移動させてもよい。
‐位置変更履歴DB128
位置変更履歴DB128は、過去に受信された集音部の位置等の適正度、および、集音部120の位置等の変更内容が格納されるデータベースである。図10は、位置変更履歴DB128の構成例を示した説明図である。図10に示したように、位置変更履歴DB128では、例えば、日時1280、適正度1282、および、制御内容1284が対応付けられている。ここで、日時1280には、集音部の位置等の適正度が受信された日時が記録される。また、適正度1282には、該当の日時に受信された集音部の位置等の適正度の値が記録される。また、制御内容1284には、該当の日時において駆動制御部104により実行された制御内容が記録される。なお、制御内容1284に記録される内容は、図3に示した制御情報2246と同様であり得る。
位置変更履歴DB128は、過去に受信された集音部の位置等の適正度、および、集音部120の位置等の変更内容が格納されるデータベースである。図10は、位置変更履歴DB128の構成例を示した説明図である。図10に示したように、位置変更履歴DB128では、例えば、日時1280、適正度1282、および、制御内容1284が対応付けられている。ここで、日時1280には、集音部の位置等の適正度が受信された日時が記録される。また、適正度1282には、該当の日時に受信された集音部の位置等の適正度の値が記録される。また、制御内容1284には、該当の日時において駆動制御部104により実行された制御内容が記録される。なお、制御内容1284に記録される内容は、図3に示した制御情報2246と同様であり得る。
<2-2.適用例>
以上、第2の実施形態による構成について説明した。次に、第2の実施形態の適用例について説明する。本適用例では、(第1の実施形態の適用例と同様に)デバイス10‐2が、集音部120を備えたヘッドセット10‐2aであり、かつ、集音部120が上下方向にのみ移動可能である例について説明する。
以上、第2の実施形態による構成について説明した。次に、第2の実施形態の適用例について説明する。本適用例では、(第1の実施形態の適用例と同様に)デバイス10‐2が、集音部120を備えたヘッドセット10‐2aであり、かつ、集音部120が上下方向にのみ移動可能である例について説明する。
具体的には、まず、ユーザが集音部120に対して任意の発話をすると、ヘッドセット10‐2aは、集音部120により集音された音声データのみをサーバ20‐2へ送信する。
その後、サーバ20‐2は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ20‐2は、算出した適正度および音声認識結果を該当のヘッドセット10‐2aへ送信する。
その後、受信された適正度が所定の閾値よりも大きい場合には、ヘッドセット10‐2aは、集音部120の位置および/または姿勢を駆動部122に変更させないことを決定する。一方、受信された適正度が所定の閾値以下である場合には、ヘッドセット10‐2aは、位置変更履歴DB128に格納されている、集音部120の位置等の変更履歴に基づいて、上下いずれかの方向へ集音部120を移動させる。例えば、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、ヘッドセット10‐2aは、前回の移動方向と同じ方向へ集音部120を移動させる。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、ヘッドセット10‐2aは、前回の移動方向とは反対の方向へ集音部120を移動させる。
なお、ユーザが発話する度に、サーバ20‐2およびヘッドセット10‐2aは、上述した処理を繰り返す。従って、ユーザが発話を繰り返すことにより、ヘッドセット10‐2aは、集音部120の位置がユーザにとって最適な位置になるように、集音部120の位置を徐々に調整していくことができる。
<2-3.動作>
{2-3-1.動作の全体的な流れ}
以上、第2の実施形態の適用例について説明した。次に、第2の実施形態による動作について、図11および図12を参照して説明する。図11は、第2の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図11に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図11に示したS201は、(図6に示した)第1の実施形態によるS101と同様である。
{2-3-1.動作の全体的な流れ}
以上、第2の実施形態の適用例について説明した。次に、第2の実施形態による動作について、図11および図12を参照して説明する。図11は、第2の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図11に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図11に示したS201は、(図6に示した)第1の実施形態によるS101と同様である。
S201の後、デバイス10‐1の通信部124は、送信制御部102の制御に従って、S201で集音された音声データのみをサーバ20‐2へ送信する(S203)。なお、図11に示したS205~S207は、(図6に示した)S105~S107と同様である。
S207の後、サーバ20‐2の通信部220は、送信制御部208の制御に従って、S205における音声認識結果、および、S207で算出された、集音部の位置等の適正度をデバイス10‐2へ送信する(S209)。
その後、デバイス10‐2の駆動制御部104は、受信された適正度が所定の閾値よりも大きいか否かを判定する(S211)。受信された適正度が所定の閾値よりも大きい場合には(S211:Yes)、デバイス10‐2は本動作を終了する。
一方、受信された適正度が所定の閾値以下である場合には(S211:No)、駆動制御部104は、後述する「集音部の位置等変更処理」を行う(S213)。
{2-3-2.集音部の位置等変更処理}
ここで、S213における「集音部の位置等変更処理」の流れについて、図12を参照して説明する。図12に示したように、まず、駆動制御部104は、位置変更履歴DB128を参照することにより、前回受信された適正度を特定する。そして、駆動制御部104は、S209で受信された適正度が、前回受信された適正度以上であるか否かを判定する(S251)。S209で受信された適正度が、前回受信された適正度以上である場合には(S251:Yes)、駆動制御部104は、集音部120の位置を前回の移動方向と同じ方向に駆動部122に移動させる(S253)。そして、駆動制御部104は、S209で受信された適正度、および、集音部120の位置等の変更内容を対応付けて位置変更履歴DB128に保存する(S255)。
ここで、S213における「集音部の位置等変更処理」の流れについて、図12を参照して説明する。図12に示したように、まず、駆動制御部104は、位置変更履歴DB128を参照することにより、前回受信された適正度を特定する。そして、駆動制御部104は、S209で受信された適正度が、前回受信された適正度以上であるか否かを判定する(S251)。S209で受信された適正度が、前回受信された適正度以上である場合には(S251:Yes)、駆動制御部104は、集音部120の位置を前回の移動方向と同じ方向に駆動部122に移動させる(S253)。そして、駆動制御部104は、S209で受信された適正度、および、集音部120の位置等の変更内容を対応付けて位置変更履歴DB128に保存する(S255)。
一方、S209で受信された適正度が、前回受信された適正度未満である場合には(S251:No)、駆動制御部104は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を駆動部122に移動させる(S257)。その後、駆動制御部104は、上述したS255の処理を行う。
<2-4.効果>
以上説明したように、第2の実施形態によれば、サーバ20‐2は、集音部120で集音されたユーザの音声をデバイス10‐2から受信し、そして、受信された音声に基づいて算出される適正度をデバイス10‐2へ送信する。また、デバイス10‐2は、サーバ20‐2から受信される適正度に応じて、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。
以上説明したように、第2の実施形態によれば、サーバ20‐2は、集音部120で集音されたユーザの音声をデバイス10‐2から受信し、そして、受信された音声に基づいて算出される適正度をデバイス10‐2へ送信する。また、デバイス10‐2は、サーバ20‐2から受信される適正度に応じて、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。
また、第2の実施形態によれば、第1と実施形態と異なり、サーバ20‐2がデバイス10‐2の種類を認識すること、および、算出した集音部の位置等の適正度を保存することが不要である。従って、サーバ20‐2の処理量が軽減される。
<<3.第3の実施形態>>
以上、第2の実施形態について説明した。上述したように、第1の実施形態および第2の実施形態では、デバイス10‐1またはデバイス10‐2が集音部120の位置および/または姿勢を自動的に調整する例について説明した。
以上、第2の実施形態について説明した。上述したように、第1の実施形態および第2の実施形態では、デバイス10‐1またはデバイス10‐2が集音部120の位置および/または姿勢を自動的に調整する例について説明した。
次に、第3の実施形態について説明する。後述するように、第3の実施形態によるデバイス10‐3は、第3の実施形態によるサーバ20‐3から受信される集音部の位置等の適正度に応じて、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させることが可能である。これにより、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢をユーザは適切に調整することができる。なお、以下では、第2の実施形態と異なる内容についてのみ説明を行う。
<3-1.構成>
{3-1-1.サーバ20‐3}
まず、第3の実施形態による構成について詳細に説明する。なお、第3の実施形態によるサーバ20‐3の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
{3-1-1.サーバ20‐3}
まず、第3の実施形態による構成について詳細に説明する。なお、第3の実施形態によるサーバ20‐3の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
{3-1-2.デバイス10‐3}
図13は、第3の実施形態によるデバイス10‐3の構成例を示した機能ブロック図である。図13に示したように、デバイス10‐3は、図9に示したデバイス10‐2と比較して、出力部130をさらに含み、かつ、駆動部122を含まない。
図13は、第3の実施形態によるデバイス10‐3の構成例を示した機能ブロック図である。図13に示したように、デバイス10‐3は、図9に示したデバイス10‐2と比較して、出力部130をさらに含み、かつ、駆動部122を含まない。
(3-1-2-1.制御部100)
第3の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、出力制御部106をさらに含み、かつ、駆動制御部104を含まない。
第3の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、出力制御部106をさらに含み、かつ、駆動制御部104を含まない。
(3-1-2-2.出力制御部106)
出力制御部106は、本開示における処理部の一例である。出力制御部106は、例えばテキスト、画像、音などの各種の情報を、後述する出力部130に出力させる。例えば、集音部の位置等の適正度がサーバ20‐3から受信された場合には、出力制御部106は、受信された適正度に応じた情報を出力部130に出力させる。
出力制御部106は、本開示における処理部の一例である。出力制御部106は、例えばテキスト、画像、音などの各種の情報を、後述する出力部130に出力させる。例えば、集音部の位置等の適正度がサーバ20‐3から受信された場合には、出力制御部106は、受信された適正度に応じた情報を出力部130に出力させる。
‐表示例1
一例として、出力制御部106は、受信された集音部の位置等の適正度を表示画面に表示させたり、当該適正度を読み上げる音声を出力部130に出力させる。例えば、図14Aに示したように、出力制御部106は、当該適正度を示すテキストを表示画面に表示させてもよい。なお、出力制御部106は、当該適正度が所定の閾値以下である場合にのみ、当該適正度を示すテキストを表示画面に表示させてもよい。
一例として、出力制御部106は、受信された集音部の位置等の適正度を表示画面に表示させたり、当該適正度を読み上げる音声を出力部130に出力させる。例えば、図14Aに示したように、出力制御部106は、当該適正度を示すテキストを表示画面に表示させてもよい。なお、出力制御部106は、当該適正度が所定の閾値以下である場合にのみ、当該適正度を示すテキストを表示画面に表示させてもよい。
または、出力制御部106は、受信された集音部の位置等の適正度の程度を示す表示を表示画面に表示させてもよい。例えば、当該適正度が所定の閾値よりも大きい場合には、図14Bに示したように、出力制御部106は、「マイク位置が良好であること」を示すテキストを表示画面に表示させてもよい。また、当該適正度が所定の閾値以下である場合には、出力制御部106は、「マイク位置が不良であること」を示すテキストを表示画面に表示させてもよい。
‐表示例2
または、出力制御部106は、受信された集音部の位置等の適正度と所定の閾値との比較に基づいて、警告表示を表示画面に表示させたり、または、警告音を出力部130に出力させることも可能である。例えば、当該適正度が所定の閾値以下である場合には、図14Cに示したように、出力制御部106は、集音部120の位置および/または姿勢の変更をユーザに促すテキストを表示画面に表示させる。また、当該適正度が所定の閾値よりも大きい場合には、出力制御部106は、当該テキストを表示画面に表示させない。
または、出力制御部106は、受信された集音部の位置等の適正度と所定の閾値との比較に基づいて、警告表示を表示画面に表示させたり、または、警告音を出力部130に出力させることも可能である。例えば、当該適正度が所定の閾値以下である場合には、図14Cに示したように、出力制御部106は、集音部120の位置および/または姿勢の変更をユーザに促すテキストを表示画面に表示させる。また、当該適正度が所定の閾値よりも大きい場合には、出力制御部106は、当該テキストを表示画面に表示させない。
‐表示例3
なお、変形例として、出力制御部106は、デバイス10‐3の姿勢(または集音部120が向いている方向)の測定結果、および、集音部120の位置等の変更履歴に基づいて、(デバイス10‐3の現在の位置および姿勢を基準とした)集音部120の移動推奨方向を示す表示を表示画面に表示させることも可能である。ここで、デバイス10‐3の姿勢は、例えばデバイス10‐3に内蔵されるジャイロセンサー、3軸加速度センサー、または、地磁気センサーなどにより測定され得る。また、集音部120の位置等の変更履歴は、例えば記憶部126に格納される位置変更履歴DB128に格納され得る。
なお、変形例として、出力制御部106は、デバイス10‐3の姿勢(または集音部120が向いている方向)の測定結果、および、集音部120の位置等の変更履歴に基づいて、(デバイス10‐3の現在の位置および姿勢を基準とした)集音部120の移動推奨方向を示す表示を表示画面に表示させることも可能である。ここで、デバイス10‐3の姿勢は、例えばデバイス10‐3に内蔵されるジャイロセンサー、3軸加速度センサー、または、地磁気センサーなどにより測定され得る。また、集音部120の位置等の変更履歴は、例えば記憶部126に格納される位置変更履歴DB128に格納され得る。
より具体的には、まず、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、出力制御部106は、集音部120の前回の移動方向を集音部120の移動推奨方向として決定する。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、出力制御部106は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向を集音部120の移動推奨方向として決定する。そして、出力制御部106は、決定した移動推奨方向を示す表示を表示画面に表示させる。
例えば、集音部120の移動推奨方向を「右」に決定した場合には、出力制御部106は、「マイクを右へ20cm動かして下さい」のようなテキストを表示画面に表示させてもよい。または、例えば図14Dに示したように、出力制御部106は、(デバイス10‐3の現在の位置および姿勢を基準とした)集音部120の移動推奨方向を示す矢印の画像を表示画面に表示させてもよい。
(3-1-2-3.出力部130)
出力部130は、出力制御部106の制御に従って、表示画面を表示したり、音声を出力する。この出力部130は、表示を行う表示部、および、音声を出力する音声出力部を含む。ここで、表示部は、例えばLCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)などから構成されるディスプレイや、LED(Light Emitting Diode)などを含む。また、音声出力部は、スピーカなどを含む。
出力部130は、出力制御部106の制御に従って、表示画面を表示したり、音声を出力する。この出力部130は、表示を行う表示部、および、音声を出力する音声出力部を含む。ここで、表示部は、例えばLCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)などから構成されるディスプレイや、LED(Light Emitting Diode)などを含む。また、音声出力部は、スピーカなどを含む。
<3-2.適用例>
以上、第3の実施形態による構成について説明した。次に、第3の実施形態の適用例について説明する。本適用例では、デバイス10‐3が、スマートフォン10‐3aである例について説明する。
以上、第3の実施形態による構成について説明した。次に、第3の実施形態の適用例について説明する。本適用例では、デバイス10‐3が、スマートフォン10‐3aである例について説明する。
ところで、スマートフォン10‐3aを使用して音声認識を利用する場面では、通常、ユーザは、スマートフォン10‐3aを把持した状態で発話したり、机の上に置いた状態で発話を行う。このため、音声認識の精度の観点で不適切な位置に集音部120が配置される場合がある。本適用例によれば、集音部120の位置が音声認識に適した位置であるか否かをユーザに知らせることができる。
具体的には、まず、ユーザが集音部120に対して任意の発話をすると、スマートフォン10‐3aは、集音部120により集音された音声データのみをサーバ20‐3へ送信する。
その後、サーバ20‐3は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ20‐3は、算出した適正度および音声認識結果を該当のスマートフォン10‐3aへ送信する。
その後、スマートフォン10‐3aは、受信された適正度と所定の閾値とを比較する。そして、当該適正度が所定の閾値以下である場合には、スマートフォン10‐3aは、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示画面に表示する。
なお、ユーザが発話する度に、サーバ20‐3およびスマートフォン10‐3aは、上述した処理を繰り返す。従って、発話とスマートフォン10‐3aの位置の調整とを繰り返すことにより、ユーザは、集音部120の位置がユーザにとって最適な位置になるように、集音部120の位置を徐々に調整していくことができる。
<3-3.動作>
以上、第3の実施形態の適用例について説明した。次に、第3の実施形態による動作について、図15を参照して説明する。図15は、第3の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図15に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図15に示したS301~S309は、(図11に示した)第2の実施形態によるS201~S209と同様である。
以上、第3の実施形態の適用例について説明した。次に、第3の実施形態による動作について、図15を参照して説明する。図15は、第3の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図15に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図15に示したS301~S309は、(図11に示した)第2の実施形態によるS201~S209と同様である。
S309の後、デバイス10‐3の出力制御部106は、S309で受信された、集音部の位置等の適正度が所定の閾値よりも大きいか否かを判定する(S311)。受信された適正度が所定の閾値よりも大きい場合には(S311:Yes)、デバイス10‐3は本動作を終了する。
一方、受信された適正度が所定の閾値以下である場合には(S311:No)、出力制御部106は、集音部120の位置および/または姿勢の変更をユーザに促す警告表示や警告音を出力部130に出力させる(S313)。
<3-4.効果>
以上説明したように、第3の実施形態によれば、デバイス10‐3は、サーバ20‐3から受信される適正度に応じて、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させる。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢をユーザは適切に調整することができる。
以上説明したように、第3の実施形態によれば、デバイス10‐3は、サーバ20‐3から受信される適正度に応じて、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させる。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢をユーザは適切に調整することができる。
<<4.第4の実施形態>>
以上、第3の実施形態について説明した。ところで、上述したように、集音部の位置等の適正度が低い場合には、集音部120で集音される音声の音声認識の精度が低下し得る。従って、集音部の位置等の適正度が低い場合に、音声認識に基づく操作をユーザが行おうとすると、ユーザの意図とは異なる操作が実行される恐れがある。
以上、第3の実施形態について説明した。ところで、上述したように、集音部の位置等の適正度が低い場合には、集音部120で集音される音声の音声認識の精度が低下し得る。従って、集音部の位置等の適正度が低い場合に、音声認識に基づく操作をユーザが行おうとすると、ユーザの意図とは異なる操作が実行される恐れがある。
次に、第4の実施形態について説明する。後述するように、第4の実施形態によるデバイス10‐4は、第4の実施形態によるサーバ20‐4から受信される集音部の位置等の適正度に応じて、音声認識結果に対応する操作を許可するか否かを決定することが可能である。これにより、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。なお、以下では、第2の実施形態と異なる内容についてのみ説明を行う。
<4-1.情報処理システムの構成>
図16は、第4の実施形態による情報処理システムの構成を示した説明図である。図16に示すように、第4の実施形態による情報処理システムは、(図1に示した)第1の実施形態と比較して、外部機器50をさらに含む。
図16は、第4の実施形態による情報処理システムの構成を示した説明図である。図16に示すように、第4の実施形態による情報処理システムは、(図1に示した)第1の実施形態と比較して、外部機器50をさらに含む。
{4-1-1.外部機器50}
外部機器50は、例えば通信網30を介して、デバイス10‐4と通信可能な機器である。この外部機器50は、デバイス10‐4から指示情報を受信し、そして、受信した指示情報に従って処理を行うことが可能である。例えば、外部機器50は、受信した指示情報に従って電源をONとOFFの間で切り替えたり、または、指示情報が指示する機能を実行する。
外部機器50は、例えば通信網30を介して、デバイス10‐4と通信可能な機器である。この外部機器50は、デバイス10‐4から指示情報を受信し、そして、受信した指示情報に従って処理を行うことが可能である。例えば、外部機器50は、受信した指示情報に従って電源をONとOFFの間で切り替えたり、または、指示情報が指示する機能を実行する。
なお、図16では、外部機器50が車である例を示しているが、かかる例に限定されない。例えば、外部機器50は、ロボット(ドローンなど)、家電機器(エア・コンディショナー、照明機器、電子錠、給湯器、コンロなど)、サーバ(メールサーバなど)、汎用PC、タブレット型端末、スマートフォンなどの携帯電話、ゲーム機、または、テレビジョン受信機などであってもよい。
なお、図16では、集音部120がデバイス10‐4に含まれる例を示しているが、かかる例に限定されず、集音部120は、外部機器50(内部または外部)に配置されてもよい。また、図16では、(デバイス10‐4を使用する)ユーザ2が外部機器50と離れて位置する例を示しているが、かかる例に限定されず、ユーザ2は、外部機器50の内部に位置することも可能である。
<4-2.構成>
{4-2-1.デバイス10‐4}
以上、第4の実施形態による情報処理システムの構成について説明した。次に、第4の実施形態による構成について詳細に説明する。なお、第4の実施形態によるサーバ20‐4の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
{4-2-1.デバイス10‐4}
以上、第4の実施形態による情報処理システムの構成について説明した。次に、第4の実施形態による構成について詳細に説明する。なお、第4の実施形態によるサーバ20‐4の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
{4-2-2.デバイス10‐4}
図17は、第4の実施形態によるデバイス10‐4の構成例を示した機能ブロック図である。図17に示したように、第4の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、操作許可部108をさらに含む。
図17は、第4の実施形態によるデバイス10‐4の構成例を示した機能ブロック図である。図17に示したように、第4の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、操作許可部108をさらに含む。
(4-2-2-1.操作許可部108)
操作許可部108は、本開示における処理部の一例である。操作許可部108は、サーバ20‐4から受信される音声認識結果から特定される操作を所定の条件に基づいて許可するか否かを決定する。例えば、操作許可部108は、まず、サーバ20‐4から受信された音声認識結果が命令のテキストを含むか否かを判定する。当該音声認識結果が命令のテキストを含む場合には、操作許可部108は、当該音声認識結果に対応する操作を特定する。そして、操作許可部108は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、特定した操作の実行を許可するか否かを決定する。
操作許可部108は、本開示における処理部の一例である。操作許可部108は、サーバ20‐4から受信される音声認識結果から特定される操作を所定の条件に基づいて許可するか否かを決定する。例えば、操作許可部108は、まず、サーバ20‐4から受信された音声認識結果が命令のテキストを含むか否かを判定する。当該音声認識結果が命令のテキストを含む場合には、操作許可部108は、当該音声認識結果に対応する操作を特定する。そして、操作許可部108は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、特定した操作の実行を許可するか否かを決定する。
‐判定例1
例えば、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。一例として、特定した操作が外部機器50に対する操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が外部機器50に対する操作ではない場合(例えば、デバイス10‐4に対する操作である場合)には、操作許可部108は、当該操作を許可する。この判定例によれば、集音部の位置等の適正度が低い場合には、外部機器50に対する操作が実行されない。従って、ユーザの音声が誤認識される恐れが高い場合には、外部機器50に対する、音声認識に基づく操作を制限することができる。
例えば、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。一例として、特定した操作が外部機器50に対する操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が外部機器50に対する操作ではない場合(例えば、デバイス10‐4に対する操作である場合)には、操作許可部108は、当該操作を許可する。この判定例によれば、集音部の位置等の適正度が低い場合には、外部機器50に対する操作が実行されない。従って、ユーザの音声が誤認識される恐れが高い場合には、外部機器50に対する、音声認識に基づく操作を制限することができる。
‐判定例2
または、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4の挙動に関する操作(以下、制御系の操作と称する場合がある)であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。ここで、制御系の操作は、例えば、加速、操舵、および、制動に関する操作を含み得る。例えば、特定した操作が制御系の操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が制御系以外の操作である場合には、操作許可部108は、当該操作を許可する。
または、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4の挙動に関する操作(以下、制御系の操作と称する場合がある)であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。ここで、制御系の操作は、例えば、加速、操舵、および、制動に関する操作を含み得る。例えば、特定した操作が制御系の操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が制御系以外の操作である場合には、操作許可部108は、当該操作を許可する。
例えば、外部機器50が車50aである場合には、制御系の操作を誤れば事故の発生につながり得る。一方、例えば音楽の再生やカーナビゲーションの操作などに関しては、仮にユーザの意図しない操作が実行されたとしても、危険性はなく、また、元の状態にすぐに戻すこともできる。上記の判定例によれば、集音部の位置等の適正度が低い場合には、音声認識に基づく制御系の操作は実行されない。従って、車50aの走行時における安全性の低下を防止することができる。また、制御系以外の操作に関しては、集音部の位置等の適正度が低い場合でも制限されない。従って、安全性を確保しつつ、ユーザの利便性を維持することができる。
‐判定例3
または、操作許可部108は、特定した操作が他のユーザ宛ての情報(例えば、電子メール、SMS(Short Message Service)、または、SNS(Social Networking Service)でのメッセージなど)の送信操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。なお、例えば、音声認識結果が「メール送信!」といったテキストである場合などに、操作許可部108は、当該音声認識結果に対応する操作がメール送信操作であると特定する。
または、操作許可部108は、特定した操作が他のユーザ宛ての情報(例えば、電子メール、SMS(Short Message Service)、または、SNS(Social Networking Service)でのメッセージなど)の送信操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。なお、例えば、音声認識結果が「メール送信!」といったテキストである場合などに、操作許可部108は、当該音声認識結果に対応する操作がメール送信操作であると特定する。
例えば、特定した操作が他のユーザ宛ての情報の送信操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が他のユーザ宛ての情報の送信操作以外の操作である場合には、操作許可部108は、当該操作を許可する。
一般的に、電子メール等の情報が一度送信されると、送信を取り消すことができない。この判定例によれば、集音部の位置等の適正度が低い場合には、他のユーザ宛ての情報が送信されない。従って、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく、他のユーザ宛ての情報の送信操作を制限することができる。例えば、ユーザが意図せずに電子メール等が送信されてしまうことや、ユーザの意図する送信先とは異なる送信先に電子メール等が送信されてしまうことを防止することができる。
‐‐変形例
なお、変形例として、操作許可部108は、受信された集音部の位置等の適正度、第1の閾値、および、(第1の閾値よりも小さい)第2の閾値の比較に基づいて、特定した操作の実行を許可するか否かを決定することも可能である。例えば、受信された集音部の位置等の適正度が第1の閾値以上であり、かつ、第2の閾値よりも大きい場合には、操作許可部108は、特定した操作の実行の可否をユーザに問い合わせ、かつ、当該問い合わせに対するユーザの回答に基づいて、操作を許可するか否かを決定してもよい。一例として、操作許可部108は、該当の操作の実行に関する問い合わせ用のUIを表示画面に表示させることにより、ユーザに問い合わせを行う。そして、当該UIに対して、操作の実行を承諾する旨の回答が入力された場合には、操作許可部108は、該当の操作を許可する。また、当該UIに対して、操作の実行を承諾しない旨の回答が入力された場合には、操作許可部108は、該当の操作を許可しない。
なお、変形例として、操作許可部108は、受信された集音部の位置等の適正度、第1の閾値、および、(第1の閾値よりも小さい)第2の閾値の比較に基づいて、特定した操作の実行を許可するか否かを決定することも可能である。例えば、受信された集音部の位置等の適正度が第1の閾値以上であり、かつ、第2の閾値よりも大きい場合には、操作許可部108は、特定した操作の実行の可否をユーザに問い合わせ、かつ、当該問い合わせに対するユーザの回答に基づいて、操作を許可するか否かを決定してもよい。一例として、操作許可部108は、該当の操作の実行に関する問い合わせ用のUIを表示画面に表示させることにより、ユーザに問い合わせを行う。そして、当該UIに対して、操作の実行を承諾する旨の回答が入力された場合には、操作許可部108は、該当の操作を許可する。また、当該UIに対して、操作の実行を承諾しない旨の回答が入力された場合には、操作許可部108は、該当の操作を許可しない。
この変形例によれば、集音部の位置等の適正度が第2の閾値以下である場合には、音声認識結果に対応する操作は実行されない。また、当該適正度が第1の閾値以上であり、かつ、第2の閾値よりも大きい場合には、音声認識結果に対応する操作の実行の可否がユーザに確認される。また、当該適正度が第2の閾値以上である場合には、音声認識結果に対応する操作がユーザに確認せずに実行される。従って、音声が誤認識される可能性の高さに応じて、音声認識に基づく操作を適切に制限することができる。
(4-2-2-2.送信制御部102)
第4の実施形態による送信制御部102は、操作許可部108により特定された操作が、外部機器50に対する操作である場合には、当該操作の実行を指示する指示情報を外部機器50へ通信部124に送信させることが可能である。例えば、送信制御部102は、操作許可部108により該当の操作が許可された場合にのみ、当該指示情報を外部機器50へ通信部124に送信させてもよい。
第4の実施形態による送信制御部102は、操作許可部108により特定された操作が、外部機器50に対する操作である場合には、当該操作の実行を指示する指示情報を外部機器50へ通信部124に送信させることが可能である。例えば、送信制御部102は、操作許可部108により該当の操作が許可された場合にのみ、当該指示情報を外部機器50へ通信部124に送信させてもよい。
<4-3.動作>
{4-3-1.動作の全体の流れ}
以上、第4の実施形態の構成について説明した。次に、第4の実施形態による動作について、図18を参照して説明する。図18は、第4の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図18に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図18に示したS401~S409は、(図11に示した)第2の実施形態によるS201~S209と同様である。
{4-3-1.動作の全体の流れ}
以上、第4の実施形態の構成について説明した。次に、第4の実施形態による動作について、図18を参照して説明する。図18は、第4の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図18に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図18に示したS401~S409は、(図11に示した)第2の実施形態によるS201~S209と同様である。
S409の後、デバイス10‐4は、後述する「操作実行処理」を行う(S411)。
なお、図18に示したS413~S415は、(図11に示した)第2の実施形態によるS211~S213の処理と同様である。
{4-3-2.操作実行処理}
ここで、S411における「操作実行処理」の流れについて、図19を参照して説明する。図19に示したように、まず、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S451)。受信された適正度が所定の閾値よりも大きい場合には(S451:Yes)、操作許可部108は、受信された音声認識結果に対応する操作を実行する(S453)。一方、受信された適正度が所定の閾値以下である場合には(S451:No)、操作許可部108は、受信された音声認識結果に対応する操作を実行しない(S455)。
ここで、S411における「操作実行処理」の流れについて、図19を参照して説明する。図19に示したように、まず、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S451)。受信された適正度が所定の閾値よりも大きい場合には(S451:Yes)、操作許可部108は、受信された音声認識結果に対応する操作を実行する(S453)。一方、受信された適正度が所定の閾値以下である場合には(S451:No)、操作許可部108は、受信された音声認識結果に対応する操作を実行しない(S455)。
{4-3-3.変形例}
なお、第4の実施形態による動作は、上述した例に限定されない。例えば、S413~S415の処理は実行されなくてもよい。また、S411における「操作実行処理」は、上述した例に限定されず、以下で述べる変形例(変形例1~変形例3)のうちのいずれかが代わりに実行されてもよい。
なお、第4の実施形態による動作は、上述した例に限定されない。例えば、S413~S415の処理は実行されなくてもよい。また、S411における「操作実行処理」は、上述した例に限定されず、以下で述べる変形例(変形例1~変形例3)のうちのいずれかが代わりに実行されてもよい。
(4-3-3-1.変形例1)
まず、「操作実行処理」の変形例1について、図20を参照して説明する。図20に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かを判定する(S501)。特定した操作が外部機器50に対する操作ではない場合には(S501:No)、操作許可部108は、特定した操作を実行する(S503)。そして、当該「操作実行処理」は終了する。
まず、「操作実行処理」の変形例1について、図20を参照して説明する。図20に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かを判定する(S501)。特定した操作が外部機器50に対する操作ではない場合には(S501:No)、操作許可部108は、特定した操作を実行する(S503)。そして、当該「操作実行処理」は終了する。
一方、特定した操作が外部機器50に対する操作である場合には(S501:Yes)、次に、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S505)。受信された適正度が所定の閾値よりも大きい場合には(S505:Yes)、操作許可部108は、特定した操作を許可する。そして、通信部124は、送信制御部102の制御に従って、当該操作の実行を指示する指示情報を外部機器50へ送信する。その後、外部機器50は、受信された指示情報に従って、該当の操作を実行する(S507)。そして、当該「操作実行処理」は終了する。
一方、受信された適正度が所定の閾値以下である場合には(S505:No)、操作許可部108は、特定した操作を許可しない(S509)。そして、当該「操作実行処理」は終了する。
(4-3-3-2.変形例2)
次に、「操作実行処理」の変形例2について、図21を参照して説明する。図21に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4に対する制御系の操作であるか否かを判定する(S601)。特定した操作が制御系の操作ではない場合には(S601:No)、操作許可部108は、特定した操作を実行する(S603)。そして、当該「操作実行処理」は終了する。
次に、「操作実行処理」の変形例2について、図21を参照して説明する。図21に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4に対する制御系の操作であるか否かを判定する(S601)。特定した操作が制御系の操作ではない場合には(S601:No)、操作許可部108は、特定した操作を実行する(S603)。そして、当該「操作実行処理」は終了する。
一方、特定した操作が制御系の操作である場合には(S601:Yes)、次に、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S605)。受信された適正度が所定の閾値よりも大きい場合には(S605:Yes)、操作許可部108は、特定した操作を許可する。例えば該当の操作が外部機器50に対する操作である場合には、デバイス10‐4は、当該操作の実行を指示する指示情報を外部機器50へ送信し、そして、外部機器50は、受信した指示情報に従って該当の操作を実行する。また、該当の操作がデバイス10‐4に対する操作である場合には、デバイス10‐4は、該当の操作を実行する(S607)。そして、当該「操作実行処理」は終了する。
一方、受信された適正度が所定の閾値以下である場合には(S605:No)、操作許可部108は、特定した操作を許可しない(S609)。そして、当該「操作実行処理」は終了する。
(4-3-3-3.変形例3)
次に、「操作実行処理」の変形例3について、図22を参照して説明する。図22に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、電子メールの送信操作であるか否かを判定する(S701)。特定した操作が電子メールの送信操作ではない場合には(S701:No)、操作許可部108は、特定した操作を実行する(S703)。そして、当該「操作実行処理」は終了する。
次に、「操作実行処理」の変形例3について、図22を参照して説明する。図22に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、電子メールの送信操作であるか否かを判定する(S701)。特定した操作が電子メールの送信操作ではない場合には(S701:No)、操作許可部108は、特定した操作を実行する(S703)。そして、当該「操作実行処理」は終了する。
一方、特定した操作が電子メールの送信操作である場合には(S701:Yes)、次に、操作許可部108は、S409で受信された適正度が第1の閾値よりも大きいか否かを判定する(S705)。受信された適正度が第1の閾値よりも大きい場合には(S705:Yes)、操作許可部108は、特定した操作を許可する。そして、送信制御部102は、当該操作が指定する電子メールを、当該操作が指定する送信先へ通信部124に送信させる(S707)。そして、当該「操作実行処理」は終了する。
一方、受信された適正度が第1の閾値以下である場合には(S705:No)、操作許可部108は、次に、受信された適正度が第2の閾値よりも大きいか否かを判定する(S709)。受信された適正度が第2の閾値よりも大きい場合には(S709:Yes)、操作許可部108は、特定した操作の実行の可否をユーザに問い合わせる(S711)。そして、当該問い合わせに対して、操作の実行を承諾する旨の回答が入力された場合には(S713:Yes)、操作許可部108は、上述したS707以降の処理を行う。
一方、当該問い合わせに対して、操作の実行を承諾しない旨の回答が入力された場合には(S713:No)、操作許可部108は、特定した操作を許可しない(S715)。そして、当該「操作実行処理」は終了する。
また、S709において、受信された適正度が第2の閾値以下である場合には(S709:No)、操作許可部108は、上述したS715以降の処理を行う。
<4-4.効果>
以上説明したように、第4の実施形態によれば、デバイス10‐4は、サーバ20‐4から受信される集音部の位置等の適正度と所定の閾値との比較に応じて、音声認識結果に対応する操作を許可するか否かを決定する。例えば、集音部の位置等の適正度が所定の閾値以下である場合には、デバイス10‐4は、外部機器50に対する、音声認識に基づく操作、音声認識に基づく制御系の操作、または、他のユーザ宛ての情報の送信操作などの実行を許可しない。従って、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。
以上説明したように、第4の実施形態によれば、デバイス10‐4は、サーバ20‐4から受信される集音部の位置等の適正度と所定の閾値との比較に応じて、音声認識結果に対応する操作を許可するか否かを決定する。例えば、集音部の位置等の適正度が所定の閾値以下である場合には、デバイス10‐4は、外部機器50に対する、音声認識に基づく操作、音声認識に基づく制御系の操作、または、他のユーザ宛ての情報の送信操作などの実行を許可しない。従って、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。
また、デバイス10‐4は、第2の実施形態と同様に、集音部の位置等の適正度が向上するように、集音部120の位置および/または姿勢を自動的に調整することも可能である。従って、ユーザが発話を繰り返すことにより、集音部120の位置および/または姿勢が適切に調整され、そして、制限されていた音声認識に基づく操作を実行可能とすることもできる。
<<5.ハードウェア構成>>
次に、各実施形態に共通するデバイス10のハードウェア構成について、図23を参照して説明する。図23に示すように、デバイス10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および通信装置162を備える。
次に、各実施形態に共通するデバイス10のハードウェア構成について、図23を参照して説明する。図23に示すように、デバイス10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および通信装置162を備える。
CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従ってデバイス10内の動作全般を制御する。また、CPU150は、デバイス10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
RAM154は、例えば、CPU150により実行されるプログラムなどを一時的に記憶する。
バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、およびRAM154を相互に接続する。
インターフェース158は、ストレージ装置160、および通信装置162を、バス156と接続する。
ストレージ装置160は、記憶部126として機能する、データ格納用の装置である。ストレージ装置160は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または記憶媒体に記録されたデータを削除する削除装置などを含む。
通信装置162は、例えば通信網30などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置162は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置162は、通信部124として機能する。
なお、各実施形態によるサーバ20のハードウェア構成に関しても、上記のハードウェア構成と同様であってもよい。
<<6.変形例>>
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
<6-1.変形例1>
例えば、第1の実施形態および第2の実施形態では、基本的に、一台のデバイス10を一人のユーザが利用する例について説明したが、かかる例に限定されない。例えば、一台のデバイス10を複数のユーザが利用する場面に関しても、各実施形態は同様に適用可能である。例えば、複数のユーザのうちのいずれか(以下、発話ユーザと称する)が発話する度に、サーバ20は、発話ユーザの音声に基づいて集音部の位置等の適正度を算出し、そして、算出した適正度をデバイス10へ送信する。そして、デバイス10は、受信された適正度に応じて、集音部120の位置および/または姿勢を逐次変更する。
例えば、第1の実施形態および第2の実施形態では、基本的に、一台のデバイス10を一人のユーザが利用する例について説明したが、かかる例に限定されない。例えば、一台のデバイス10を複数のユーザが利用する場面に関しても、各実施形態は同様に適用可能である。例えば、複数のユーザのうちのいずれか(以下、発話ユーザと称する)が発話する度に、サーバ20は、発話ユーザの音声に基づいて集音部の位置等の適正度を算出し、そして、算出した適正度をデバイス10へ送信する。そして、デバイス10は、受信された適正度に応じて、集音部120の位置および/または姿勢を逐次変更する。
{6-1-1.適用例}
ここで、本変形例の適用例について説明する。この適用例では、例えば図24に示したように、対話を行うことが可能なロボット10a(デバイス10)を複数のユーザ2が利用する場面を想定する。ロボット10aは、ユーザ2の発話の音声認識結果に基づいて、当該発話に対して返事を行うことが可能である。
ここで、本変形例の適用例について説明する。この適用例では、例えば図24に示したように、対話を行うことが可能なロボット10a(デバイス10)を複数のユーザ2が利用する場面を想定する。ロボット10aは、ユーザ2の発話の音声認識結果に基づいて、当該発話に対して返事を行うことが可能である。
このような場合、ロボット10aの集音部120と各ユーザとの位置関係はそれぞれ異なるので、集音部120の位置が固定されたままでは、一部のユーザの音声を適切に集音することができない。本適用例によれば、異なるユーザが発話する度に、発話したユーザの音声を適切に集音可能なように、集音部120の位置および/または姿勢を逐次調整することができる。
具体的には、まず、一人目のユーザ2aが発話すると、ロボット10aは、当該発話の音声データをサーバ20へ送信する。そして、サーバ20は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ20‐2は、算出した適正度および音声認識結果をロボット10aへ送信する。そして、ロボット10aは、受信された適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢を変更する。
そして、ユーザ2aの対話が終了し、次に、二人目のユーザ2bが発話すると、ロボット10aは、同様の処理により、当該ユーザ2bの方向を基準として、集音部120の位置および/または姿勢を変更する。このように、ロボット10aは、各ユーザの発話の状況に応じて、集音部120の位置および/または姿勢をリアルタイムに、かつ、適切に調整することができる。
<6-2.変形例2>
また、上述した各実施形態の動作における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
また、上述した各実施形態の動作における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
また、上述した各実施形態によれば、例えばCPU150、ROM152、およびRAM154などのハードウェアを、上述した各実施形態によるデバイス10および/またはサーバ20の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
を備える、情報処理装置。
(2)
前記適正度は、前記集音部の位置の適正度を含む、前記(1)に記載の情報処理装置。
(3)
前記適正度は、前記集音部の姿勢の適正度を含む、前記(1)または(2)に記載の情報処理装置。
(4)
前記処理部は、前記適正度と所定の閾値との比較に基づいて、前記処理を行うか否かを決定する、前記(2)または(3)に記載の情報処理装置。
(5)
前記処理は、前記集音部の位置の変更に関する制御を行うことである、前記(4)に記載の情報処理装置。
(6)
前記処理は、前記集音部の位置の変更をユーザに促す情報の出力を制御することである、前記(4)に記載の情報処理装置。
(7)
前記取得部は、前記集音部で集音されたユーザの音声の音声認識結果をさらに取得し、
前記処理部は、前記音声認識結果から特定される操作を、前記適正度に基づいて許可するか否かを決定する、前記(1)~(3)のいずれか一項に記載の情報処理装置。
(8)
前記情報処理装置は、前記集音部をさらに備え、
前記処理部は、前記音声認識結果から特定される、外部の機器に対する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(9)
前記処理部は、前記音声認識結果から特定される、前記情報処理装置または外部の機器の挙動に関する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)または(8)に記載の情報処理装置。
(10)
前記処理部は、前記音声認識結果から特定される、他のユーザ宛ての情報の送信操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(11)
前記適正度が第1の閾値以下であり、かつ、第2の閾値よりも大きい場合には、前記処理部は、前記音声認識結果から特定される操作の実行の可否を前記ユーザに対して問合せ、かつ、
前記処理部は、前記問合せに対する前記ユーザの回答に基づいて、前記操作を許可するか否かを決定する、前記(7)~(10)のいずれか一項に記載の情報処理装置。
(12)
集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
を備える、情報処理装置。
(13)
前記情報処理装置は、前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部をさらに備え、
前記処理部は、前記適正度算出部により算出された適正度に応じた処理を行う、前記(12)に記載の情報処理装置。
(14)
前記情報処理装置は、前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部をさらに備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、前記(13)に記載の情報処理装置。
(15)
前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、前記(14)に記載の情報処理装置。
(16)
前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、前記(14)または(15)に記載の情報処理装置。
(17)
前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、前記(14)~(16)のいずれか一項に記載の情報処理装置。
(18)
前記処理部は、前記集音部を含む機器へ前記適正度を通信部に送信させる、前記(13)に記載の情報処理装置。
(19)
集音部で集音された音声に基づいて算出される適正度を取得することと、
取得された適正度に基づいて、プロセッサが処理を行うことと、
を含む、情報処理方法。
(20)
コンピュータを、
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
として機能させるための、プログラム。
(1)
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
を備える、情報処理装置。
(2)
前記適正度は、前記集音部の位置の適正度を含む、前記(1)に記載の情報処理装置。
(3)
前記適正度は、前記集音部の姿勢の適正度を含む、前記(1)または(2)に記載の情報処理装置。
(4)
前記処理部は、前記適正度と所定の閾値との比較に基づいて、前記処理を行うか否かを決定する、前記(2)または(3)に記載の情報処理装置。
(5)
前記処理は、前記集音部の位置の変更に関する制御を行うことである、前記(4)に記載の情報処理装置。
(6)
前記処理は、前記集音部の位置の変更をユーザに促す情報の出力を制御することである、前記(4)に記載の情報処理装置。
(7)
前記取得部は、前記集音部で集音されたユーザの音声の音声認識結果をさらに取得し、
前記処理部は、前記音声認識結果から特定される操作を、前記適正度に基づいて許可するか否かを決定する、前記(1)~(3)のいずれか一項に記載の情報処理装置。
(8)
前記情報処理装置は、前記集音部をさらに備え、
前記処理部は、前記音声認識結果から特定される、外部の機器に対する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(9)
前記処理部は、前記音声認識結果から特定される、前記情報処理装置または外部の機器の挙動に関する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)または(8)に記載の情報処理装置。
(10)
前記処理部は、前記音声認識結果から特定される、他のユーザ宛ての情報の送信操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(11)
前記適正度が第1の閾値以下であり、かつ、第2の閾値よりも大きい場合には、前記処理部は、前記音声認識結果から特定される操作の実行の可否を前記ユーザに対して問合せ、かつ、
前記処理部は、前記問合せに対する前記ユーザの回答に基づいて、前記操作を許可するか否かを決定する、前記(7)~(10)のいずれか一項に記載の情報処理装置。
(12)
集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
を備える、情報処理装置。
(13)
前記情報処理装置は、前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部をさらに備え、
前記処理部は、前記適正度算出部により算出された適正度に応じた処理を行う、前記(12)に記載の情報処理装置。
(14)
前記情報処理装置は、前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部をさらに備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、前記(13)に記載の情報処理装置。
(15)
前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、前記(14)に記載の情報処理装置。
(16)
前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、前記(14)または(15)に記載の情報処理装置。
(17)
前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、前記(14)~(16)のいずれか一項に記載の情報処理装置。
(18)
前記処理部は、前記集音部を含む機器へ前記適正度を通信部に送信させる、前記(13)に記載の情報処理装置。
(19)
集音部で集音された音声に基づいて算出される適正度を取得することと、
取得された適正度に基づいて、プロセッサが処理を行うことと、
を含む、情報処理方法。
(20)
コンピュータを、
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
として機能させるための、プログラム。
10‐1、10‐2、10‐3、10‐4 デバイス
20‐1、20‐2、20‐3、20‐4 サーバ
30 通信網
50 外部機器
100、200 制御部
102、208 送信制御部
104 認識結果実行部
106 駆動制御部
108 出力制御部
110 操作許可部
120 集音部
122 駆動部
124、220 通信部
126、222 記憶部
128、224 位置変更履歴DB
130 出力部
202 音声認識部
204 適正度算出部
206 制御情報生成部
20‐1、20‐2、20‐3、20‐4 サーバ
30 通信網
50 外部機器
100、200 制御部
102、208 送信制御部
104 認識結果実行部
106 駆動制御部
108 出力制御部
110 操作許可部
120 集音部
122 駆動部
124、220 通信部
126、222 記憶部
128、224 位置変更履歴DB
130 出力部
202 音声認識部
204 適正度算出部
206 制御情報生成部
Claims (20)
- 集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
を備える、情報処理装置。 - 前記適正度は、前記集音部の位置の適正度を含む、請求項1に記載の情報処理装置。
- 前記適正度は、前記集音部の姿勢の適正度を含む、請求項1に記載の情報処理装置。
- 前記処理部は、前記適正度と所定の閾値との比較に基づいて、前記処理を行うか否かを決定する、請求項2に記載の情報処理装置。
- 前記処理は、前記集音部の位置の変更に関する制御を行うことである、請求項4に記載の情報処理装置。
- 前記処理は、前記集音部の位置の変更をユーザに促す情報の出力を制御することである、請求項4に記載の情報処理装置。
- 前記取得部は、前記集音部で集音されたユーザの音声の音声認識結果をさらに取得し、
前記処理部は、前記音声認識結果から特定される操作を、前記適正度に基づいて許可するか否かを決定する、請求項1に記載の情報処理装置。 - 前記情報処理装置は、前記集音部をさらに備え、
前記処理部は、前記音声認識結果から特定される、外部の機器に対する操作を、前記適正度に基づいて許可するか否かを決定する、請求項7に記載の情報処理装置。 - 前記処理部は、前記音声認識結果から特定される、前記情報処理装置または外部の機器の挙動に関する操作を、前記適正度に基づいて許可するか否かを決定する、請求項7に記載の情報処理装置。
- 前記処理部は、前記音声認識結果から特定される、他のユーザ宛ての情報の送信操作を、前記適正度に基づいて許可するか否かを決定する、請求項7に記載の情報処理装置。
- 前記適正度が第1の閾値以下であり、かつ、第2の閾値よりも大きい場合には、前記処理部は、前記音声認識結果から特定される操作の実行の可否を前記ユーザに対して問合せ、かつ、
前記処理部は、前記問合せに対する前記ユーザの回答に基づいて、前記操作を許可するか否かを決定する、請求項7に記載の情報処理装置。 - 集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
を備える、情報処理装置。 - 前記情報処理装置は、前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部をさらに備え、
前記処理部は、前記適正度算出部により算出された適正度に応じた処理を行う、請求項12に記載の情報処理装置。 - 前記情報処理装置は、前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部をさらに備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、請求項13に記載の情報処理装置。 - 前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、請求項14に記載の情報処理装置。
- 前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、請求項14に記載の情報処理装置。
- 前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、請求項14に記載の情報処理装置。 - 前記処理部は、前記集音部を含む機器へ前記適正度を通信部に送信させる、請求項13に記載の情報処理装置。
- 集音部で集音された音声に基づいて算出される適正度を取得することと、
取得された適正度に基づいて、プロセッサが処理を行うことと、
を含む、情報処理方法。 - コンピュータを、
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
として機能させるための、プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17795773.5A EP3457399A4 (en) | 2016-05-13 | 2017-02-03 | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM |
JP2018516344A JP6872134B2 (ja) | 2016-05-13 | 2017-02-03 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016097003 | 2016-05-13 | ||
JP2016-097003 | 2016-05-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017195412A1 true WO2017195412A1 (ja) | 2017-11-16 |
Family
ID=60267539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/004063 WO2017195412A1 (ja) | 2016-05-13 | 2017-02-03 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3457399A4 (ja) |
JP (1) | JP6872134B2 (ja) |
WO (1) | WO2017195412A1 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03131198A (ja) * | 1989-10-16 | 1991-06-04 | Sharp Corp | 音声認識装置 |
JP2005140860A (ja) * | 2003-11-04 | 2005-06-02 | Canon Inc | 音声認識装置およびその制御方法 |
JP2007135008A (ja) * | 2005-11-10 | 2007-05-31 | Sony Ericsson Mobilecommunications Japan Inc | 携帯端末装置 |
JP2009104156A (ja) * | 2001-12-17 | 2009-05-14 | Asahi Kasei Homes Kk | 電話通信端末 |
WO2012096072A1 (ja) * | 2011-01-13 | 2012-07-19 | 日本電気株式会社 | 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム |
JP2013007917A (ja) * | 2011-06-24 | 2013-01-10 | Aisin Aw Co Ltd | 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム |
JP2014507030A (ja) | 2011-01-28 | 2014-03-20 | アマゾン テクノロジーズ インコーポレイテッド | オーディオ・ベースのアプリケーション・アーキテクチャ |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002007476A2 (en) * | 2000-07-14 | 2002-01-24 | Syvox Corporation | Apparatus and methods for sound reproduction and recording |
US7242765B2 (en) * | 2002-06-28 | 2007-07-10 | Tommy Lee Hairston | Headset cellular telephones |
US9236050B2 (en) * | 2013-03-14 | 2016-01-12 | Vocollect Inc. | System and method for improving speech recognition accuracy in a work environment |
-
2017
- 2017-02-03 WO PCT/JP2017/004063 patent/WO2017195412A1/ja active Application Filing
- 2017-02-03 JP JP2018516344A patent/JP6872134B2/ja active Active
- 2017-02-03 EP EP17795773.5A patent/EP3457399A4/en not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03131198A (ja) * | 1989-10-16 | 1991-06-04 | Sharp Corp | 音声認識装置 |
JP2009104156A (ja) * | 2001-12-17 | 2009-05-14 | Asahi Kasei Homes Kk | 電話通信端末 |
JP2005140860A (ja) * | 2003-11-04 | 2005-06-02 | Canon Inc | 音声認識装置およびその制御方法 |
JP2007135008A (ja) * | 2005-11-10 | 2007-05-31 | Sony Ericsson Mobilecommunications Japan Inc | 携帯端末装置 |
WO2012096072A1 (ja) * | 2011-01-13 | 2012-07-19 | 日本電気株式会社 | 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム |
JP2014507030A (ja) | 2011-01-28 | 2014-03-20 | アマゾン テクノロジーズ インコーポレイテッド | オーディオ・ベースのアプリケーション・アーキテクチャ |
JP2013007917A (ja) * | 2011-06-24 | 2013-01-10 | Aisin Aw Co Ltd | 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP3457399A4 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2017195412A1 (ja) | 2019-03-14 |
EP3457399A1 (en) | 2019-03-20 |
EP3457399A4 (en) | 2019-10-16 |
JP6872134B2 (ja) | 2021-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3425495B1 (en) | Device designation for audio input monitoring | |
CN110291576B (zh) | 基于触摸的操作系统的免提导航 | |
KR102278659B1 (ko) | 컴퓨팅 디바이스 근처의 가상 어시스턴트 식별 | |
JP6739907B2 (ja) | 機器特定方法、機器特定装置及びプログラム | |
KR101726945B1 (ko) | 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감 | |
US9721572B2 (en) | Device control method and electric device | |
EP3101652A1 (en) | Electronic device for outputting messages and method for controlling the same | |
KR20220031610A (ko) | 멀티-모달 사용자 인터페이스 | |
KR20190064626A (ko) | 텍스트-음성 변환(tts) 프로비저닝 | |
KR102561572B1 (ko) | 센서 활용 방법 및 이를 구현한 전자 장치 | |
US20230087575A1 (en) | Systems and methods to adapt and optimize human-machine interaction using multimodal user-feedback | |
KR102421824B1 (ko) | 외부 장치를 이용하여 음성 기반 서비스를 제공하기 위한 전자 장치, 외부 장치 및 그의 동작 방법 | |
US11367443B2 (en) | Electronic device and method for controlling electronic device | |
CN106325228B (zh) | 机器人的控制数据的生成方法及装置 | |
US20210383806A1 (en) | User input processing method and electronic device supporting same | |
US10983751B2 (en) | Multi-application augmented reality audio with contextually aware notifications | |
WO2017002488A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN105405441B (zh) | 一种语音信息的反馈方法及装置 | |
KR20190096308A (ko) | 전자기기 | |
WO2012032714A1 (en) | User device, server, and operating conditions setting system | |
WO2016206642A1 (zh) | 机器人的控制数据的生成方法及装置 | |
KR20190139489A (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
US20240075944A1 (en) | Localized voice recognition assistant | |
JP7452528B2 (ja) | 情報処理装置及び情報処理方法 | |
WO2017195412A1 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 2018516344 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17795773 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017795773 Country of ref document: EP Effective date: 20181213 |